Условия применения дисперсионного анализа. Основы научных исследований в агрономии

В практической деятельности врачей при проведении медико-биологических, социологических и экспериментальных исследований возникает необходимость установить влияние факторов на результаты изучения состояния здоровья населения, при оценке профессиональной деятельности, эффективности нововведений.

Существует ряд статистических методов, позволяющих определить силу, направление, закономерности влияния факторов на результат в генеральной или выборочной совокупностях (расчет критерия I, корреляционный анализ, регрессия, Χ 2 - (критерий согласия Пирсона и др.). Дисперсионный анализ был разработан и предложен английским ученым, математиком и генетиком Рональдом Фишером в 20-х годах XX века.

Дисперсионный анализ чаще используют в научно-практических исследованиях общественного здоровья и здравоохранения для изучения влияния одного или нескольких факторов на результативный признак. Он основан на принципе "отражения разнообразий значений факторного(ых) на разнообразии значений результативного признака" и устанавливает силу влияния фактора(ов) в выборочных совокупностях.

Сущность метода дисперсионного анализа заключается в измерении отдельных дисперсий (общая, факториальная, остаточная), и дальнейшем определении силы (доли) влияния изучаемых факторов (оценки роли каждого из факторов, либо их совместного влияния) на результативный(е) признак(и).

Дисперсионный анализ - это статистический метод оценки связи между факторными и результативным признаками в различных группах, отобранный случайным образом, основанный на определении различий (разнообразия) значений признаков. В основе дисперсионного анализа лежит анализ отклонений всех единиц исследуемой совокупности от среднего арифметического. В качестве меры отклонений берется дисперсия (В)- средний квадрат отклонений. Отклонения, вызываемые воздействием факторного признака (фактора) сравниваются с величиной отклонений, вызываемых случайными обстоятельствами. Если отклонения, вызываемые факторным признаком, более существенны, чем случайные отклонения, то считается, что фактор оказывает существенное влияние на результативный признак.

Для того, чтобы вычислить дисперсию значения отклонений каждой варианты (каждого зарегистрированного числового значения признака) от среднего арифметического возводят в квадрат. Тем самым избавляются от отрицательных знаков. Затем эти отклонения (разности) суммируют и делят на число наблюдений, т.е. усредняют отклонения. Таким образом, получают значения дисперсий.

Важным методическим значением для применения дисперсионного анализа является правильное формирование выборки. В зависимости от поставленной цели и задач выборочные группы могут формироваться случайным образом независимо друг от друга (контрольная и экспериментальная группы для изучения некоторого показателя, например, влияние высокого артериального давления на развитие инсульта). Такие выборки называются независимыми.

Нередко результаты воздействия факторов исследуются у одной и той же выборочной группы (например, у одних и тех же пациентов) до и после воздействия (лечение, профилактика, реабилитационные мероприятия), такие выборки называются зависимыми.

Дисперсионный анализ, в котором проверяется влияние одного фактора, называется однофакторным (одномерный анализ). При изучении влияния более чем одного фактора используют многофакторный дисперсионный анализ (многомерный анализ).

Факторные признаки - это те признаки, которые влияют на изучаемое явление.
Результативные признаки - это те признаки, которые изменяются под влиянием факторных признаков.

Для проведения дисперсионного анализа могут использоваться как качественные (пол, профессия), так и количественные признаки (число инъекций, больных в палате, число койко-дней).

Методы дисперсионного анализа:

  1. Метод по Фишеру (Fisher) - критерий F (значения F см. в приложении N 1);
    Метод применяется в однофакторном дисперсионном анализе, когда совокупная дисперсия всех наблюдаемых значений раскладывается на дисперсию внутри отдельных групп и дисперсию между группами.
  2. Метод "общей линейной модели".
    В его основе лежит корреляционный или регрессионный анализ, применяемый в многофакторном анализе.

Обычно в медико-биологических исследованиях используются только однофакторные, максимум двухфакторные дисперсионные комплексы. Многофакторные комплексы можно исследовать, последовательно анализируя одно- или двухфакторные комплексы, выделяемые из всей наблюдаемой совокупности.

Условия применения дисперсионного анализа:

  1. Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния различных факторов (пол и возраст, физическая активность и питание и т.д.).
  2. Изучаемые факторы должны быть независимые (несвязанные) между собой. Например, нельзя изучать совместное влияние стажа работы и возраста, роста и веса детей и т.д. на заболеваемость населения.
  3. Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (перев. с англ. - random), т.е. выбранные наугад.
  4. Можно применять как количественные, так и качественные (атрибутивные) признаки.

При проведении однофакторного дисперсионного анализа рекомендуется (необходимое условие применения):

  1. Нормальность распределения анализируемых групп или соответствие выборочных групп генеральным совокупностям с нормальным распределением.
  2. Независимость (не связанность) распределения наблюдений в группах.
  3. Наличие частоты (повторность) наблюдений.

Нормальность распределения определяется кривой Гаусса (Де Мавура), которую можно описать функцией у = f(х), так как она относится к числу законов распределения, используемых для приближенного описания явлений, которые носят случайный, вероятностный характер. Предмет медико-биологических исследований - явления вероятностного характера, нормальное распределение в таких исследованиях встречается весьма часто.

Принцип применения метода дисперсионного анализа

Сначала формулируется нулевая гипотеза, то есть предполагается, что исследуемые факторы не оказывают никакого влияния на значения результативного признака и полученные различия случайны.

Затем определяем, какова вероятность получить наблюдаемые (или более сильные) различия при условии справедливости нулевой гипотезы.

Если эта вероятность мала*, то мы отвергаем нулевую гипотезу и заключаем, что результаты исследования статистически значимы. Это еще не означает, что доказано действие именно изучаемых факторов (это вопрос, прежде всего, планирования исследования), но все же маловероятно, что результат обусловлен случайностью.
__________________________________
* Максимальную приемлемую вероятность отвергнуть верную нулевую гипотезу называют уровнем значимости и обозначают α = 0,05.

При выполнении всех условий применения дисперсионного анализа, разложение общей дисперсии математически выглядит следующим образом:

D oбщ. = D факт + D ост. ,

D oбщ. - общая дисперсия наблюдаемых значений (вариант), характеризуется разбросом вариант от общего среднего. Измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Общее разнообразие складывается из межгруппового и внутригруппового;

D факт - факторная (межгрупповая) дисперсия, характеризуется различием средних в каждой группе и зависит от влияния исследуемого фактора, по которому дифференцируется каждая группа. Например, в группах различных по этиологическому фактору клинического течения пневмонии средний уровень проведенного койко-дня неодинаков - наблюдается межгрупповое разнообразие.

D ост. - остаточная (внутригрупповая) дисперсия, которая характеризует рассеяние вариант внутри групп. Отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неуточненных факторов и не зависящую от признака - фактора, положенного в основание группировки. Вариация изучаемого признака зависит от силы влияния каких-то неучтенных случайных факторов, как от организованных (заданных исследователем), так и от случайных (неизвестных) факторов.

Поэтому общая вариация (дисперсия) слагается из вариации, вызванной организованными (заданными) факторами, называемыми факториальной вариацией и неорганизованными факторами, т.е. остаточной вариацией (случайной, неизвестной).

Классический дисперсионный анализ проводится по следующим этапам:

  1. Построение дисперсионного комплекса.
  2. Вычисление средних квадратов отклонений.
  3. Вычисление дисперсии.
  4. Сравнение факторной и остаточной дисперсий.
  5. Оценка результатов с помощью теоретических значений распределения Фишера-Снедекора (приложение N 1).

АЛГОРИТМ ПРОВЕДЕНИЯ ДИСПЕРСИОННОГО АНАЛИЗА ПО УПРОЩЕННОМУ ВАРИАНТУ

Алгоритм проведения дисперсионного анализа по упрощенному способу позволяет получить те же результаты, но расчеты выполняются значительно проще:

I этап. Построение дисперсионного комплекса

Построение дисперсионного комплекса означает построение таблицы, в которой были бы четко разграничены факторы, результативный признак и подбор наблюдений (больных) в каждую группу.

Однофакторный комплекс состоит из нескольких градаций одного фактора (А). Градации - это выборки из разных генеральных совокупностей (А1, А2, АЗ).

Двухфакторный комплекс - состоит из нескольких градаций двух факторов в комбинации между собой. Этиологические факторы заболеваемостью пневмонией те же (А1, А2, АЗ) в сочетании с разными формами клинического течения пневмонии (Н1 - острое, Н2 - хроническое).

Результативный признак (количество койко-дней в среднем) Этиологические факторы развития пневмоний
А1 А2 А3
Н1 Н2 Н1 Н2 Н1 Н2
М = 14 дней

II этап. Вычисление общей средней (М обш)

Вычисление суммы вариант по каждой градации факторов: Σ Vj = V 1 + V 2 + V 3

Вычисление общей суммы вариант (Σ V общ) по всем градациям факторного признака: Σ V общ = Σ Vj 1 + Σ Vj 2 + Σ Vj 3

Вычисление средней групповой (М гр.) факторного признака: М гр. = Σ Vj / N,
где N - сумма числа наблюдений по всем градациям факторного I признака (Σn по группам).

III этап. Расчет дисперсий:

При соблюдении всех условий применения дисперсионного анализа математическая формула выглядит следующим образом:

D oбщ. = D факт + D ост.

D oбщ. - общая дисперсия, характеризуется разбросом вариант (наблюдаемых значений) от общего среднего;
D факт. - факторная (межгрупповая) дисперсия, характеризует разброс групповых средних от общего среднего;
D ост. - остаточная (внутригрупповая) дисперсия, характеризует рассеяние вариант внутри групп.

  1. Вычисление факториальной дисперсии (D факт.): D факт. = Σ h - H
  2. Вычисление h проводится по формуле: h = (Σ Vj) / N
  3. Вычисление Н проводится по формуле: H = (Σ V) 2 / N
  4. Вычисление остаточной дисперсии: D ост. = (Σ V) 2 - Σ h
  5. Вычисление общей дисперсии: D oбщ. = (Σ V) 2 - Σ H

IV этап. Расчет основного показателя силы влияния изучаемого фактора Показатель силы влияния (η 2) факторного признака на результат определяется долей факториальной дисперсии (D факт.) в общей дисперсии (D oбщ.), η 2 (эта) - показывает какую долю занимает влияние изучаемого фактора среди всех других факторов и определяется по формуле:

V этап. Определение достоверности результатов исследования методом Фишера проводят по формуле:


F - критерий Фишера;
F st. - табличное значение (см.приложение 1).
σ 2 факт, σ 2 ост. - факториальная и остаточная девиаты (от лат. de - от, via - дорога) - отклонение от средней линии, определяются по формулам:


r - число градаций факторного признака.

Сравнение критерия Фишера (F) со стандартным (табличным) F проводят по графам таблицы с учетом степеней свободы:

v 1 = n - 1
v 2 = N - 1

По горизонтали определяют v 1 по вертикали - v 2 , на их пересечении определяют табличное значение F, где верхнее табличное значение р ≥ 0,05, а нижнее соответствует р > 0,01, и сравнивают с вычисленным критерием F. Если значение вычисленного критерия F равно или больше табличного, то результаты достоверны и Н 0 не отвергается.

Условие задачи:

На предприятии Н. повысился уровень травматизма в связи с чем врач провел исследование отдельных факторов, среди которых изучался стаж работы работающих в цехах. Выборки сделаны на предприятии Н. из 4 цехов с близкими условиями и характером труда. Уровни травматизма рассчитаны на 100 работающих за прошлый год.

При исследовании фактора рабочего стажа получены следующие данные:

На основании данных проведённого исследования была выдвинута нулевая гипотеза (Н 0) о влиянии стажа работы на уровень травматизма работников предприятия А.

Задание
Подтвердите или опровергните нулевую гипотезу методом одно-факторного дисперсионного анализа:

  1. определите силу влияния;
  2. оцените достоверность влияния фактор.

Этапы применения дисперсионного анализа
для определения влияния фактора (стажа работы) на результат (уровень травматизма)

Вывод. В выборочном комплексе выявлено, что сила влияния стажа работы на уровень травматизма составляет 80% в общем числе других факторов. Для всех цехов завода можно с вероятностью 99,7% (13,3 > 8,7) утверждать, что стаж работы влияет на уровень травматизма.

Таким образом, нулевая гипотеза (Н 0) не отвергается и влияние стажа работы на уровень травматизма в цехах завода А считается доказанным.

Значение F (критерий Фишера) стандартного при р ≥ 0,05 (верхнее значение) при р ≥ 0,01 (нижнее значение)

1 2 3 4 5 6 7 8 9 10 11
6 6,0
13,4
5,1
10,9
4,8
9,8
4,5
9,2
4,4
8,8
4,3
8,5
4,2
8,3
4,1
8,1
4,1
8,0
4,1
7,9
4,0
7,8
7 5,6
12,3
4,7
9,6
4,4
8,5
4,1
7,9
4,0
7,5
3,9
7,2
3,8
7,0
3,7
6,8
3,7
6,7
3,6
6,6
3,6
6,5
8 5,3
11,3
4,6
8,7
4,1
7,6
3,8
7,0
3,7
6,6
3,6
6,4
3,5
6,2
3,4
6,0
3,4
5,9
3,3
5,8
3,1
5,7
9 5,1
10,6
4,3
8,0
3,6
7,0
3,6
6,4
3,5
6,1
3,4
5,8
3,3
5,6
3,2
5,5
3,2
5,4
3,1
5,3
3,1
5,2
10 5,0
10,0
4,1
7,9
3,7
6,6
3,5
6,0
3,3
5,6
3,2
5,4
3,1
5,2
3,1
5,1
3,0
5,0
2,9
4,5
2,9
4,8
11 4,8
9,7
4,0
7,2
3,6
6,2
3,6
5,7
3,2
5,3
3,1
5,1
3,0
4,9
3,0
4,7
2,9
4,6
2,9
4,5
2,8
4,5
12 4,8
9,3
3,9
6,9
3,5
6,0
3,3
5,4
3,1
5,1
3,0
4,7
2,9
4,7
2,9
4,5
2,8
4,4
2,8
4,3
2,7
4,2
13 4,7
9,1
3,8
6,7
3,4
5,7
3,2
5,2
3,0
4,9
2,9
4,6
2,8
4,4
2,8
4,3
2,7
4,2
2,7
4,1
2,6
4,0
14 4,6
8,9
3,7
6,5
3,3
5,6
3,1
5,0
3,0
4,7
2,9
4,5
2,8
4,3
2,7
4,1
2,7
4,0
2,6
3,9
2,6
3,9
15 4,5
8,7
3,7
6,4
3,3
5,4
3,1
4,9
2,9
4,6
2,8
4,3
2,7
4,1
2,6
4,0
2,6
3,9
2,5
3,8
2,5
3,7
16 4,5
8,5
3,6
6,2
3,2
5,3
3,0
4,8
2,9
4,4
2,7
4,2
2,7
4,0
2,6
3,9
2,5
3,8
2,5
3,7
2,5
3,6
17 4,5
8,4
3,6
6,1
3,2
5,2
3,0
4,7
2,8
4,3
2,7
4,1
2,6
3,9
2,6
3,8
2,5
3,8
2,5
3,6
2,4
3,5
18 4,4
8,3
3,5
6,0
3,2
5,1
2,9
4,6
2,8
4,2
2,7
4,0
2,6
3,8
2,5
3,7
2,7
3,6
2,4
3,6
3,4
3,5
19 4,4
8,2
3,5
5,9
3,1
5,0
2,9
4,5
2,7
4,2
2,6
3,9
2,5
3,8
2,5
3,6
2,4
3,5
2,4
3,4
2,3
3,4
20 4,3
8,1
3,5
5,8
3,1
4,9
2,9
4,4
2,7
4,1
2,6
3,9
2,5
3,7
2,4
3,6
2,4
3,4
2,3
3,4
2,3
3,3

  1. Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. 464 с.
  2. Архипова ГЛ., Лаврова И.Г., Трошина И.М. Некоторые современные методы статистического анализа в медицине. - М.: Метроснаб, 1971. - 75 с.
  3. Зайцев В.М., Лифляндский В.Г., Маринкин В.И. Прикладная медицинская статистика. - СПб.: ООО "Издательство ФОЛИАНТ", 2003. - 432 с.
  4. Платонов А.Е. Статистический анализ в медицине и биологии: задачи, терминология, логика, компьютерные методы. - М.: Издательство РАМН, 2000. - 52 с.
  5. Плохинский Н.А. Биометрия. - Издательство Сибирского отделения АН СССР Новосибирск. - 1961. - 364 с.

Все люди от природы стремятся к знанию. (Аристотель. Метафизика)

Дисперсионный анализ

Вводный обзор

В этом разделе мы рассмотрим основные методы, предположения и терминологию дисперсионного анализа.

Отметим, что в англоязычной литературе дисперсионный анализ обычно называется анализом вариации. Поэтому, для краткости, ниже мы иногда будем использовать термин ANOVA (An alysis o f va riation ) для обычного дисперсионного анализа и термин MANOVA для многомерного дисперсионного анализа. В этом разделе мы последовательно рассмотрим основные идеи дисперсионного анализа (ANOVA ), ковариационного анализа (ANCOVA ), многомерного дисперсионного анализа (MANOVA ) и многомерного ковариационного анализа (MANCOVA ). После краткого обсуждения достоинств анализа контрастов и апостериорных критериев рассмотрим предположения, на которых основаны методы дисперсионного анализа. Ближе к концу этого раздела поясняются преимущества многомерного подхода для анализа повторных измерений по сравнению с традиционным одномерным подходом.

Основные идеи

Цель дисперсионного анализа. Основной целью дисперсионного анализа является исследование значимости различия между средними. Глава (глава 8) содержит краткое введение в исследование статистической значимости. Если вы просто сравниваете средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t - критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t - критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений). Если вы не достаточно знакомы с этими критериями, рекомендуем обратиться к вводному обзору главы (глава 9).

Откуда произошло название Дисперсионный анализ ? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними, мы на самом деле анализируем дисперсии.

Разбиение суммы квадратов

Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS (от английского Sum of Squares – Сумма Квадратов). В основе дисперсионного анализа лежит разделение (или разбиение) дисперсии на части. Рассмотрим следующий набор данных:

Средние двух групп существенно различны (2 и 6 соответственно). Сумма квадратов отклонений внутри каждой группы равна 2. Складывая их, получаем 4. Если теперь повторить эти вычисления без учета групповой принадлежности, то есть, если вычислить SS исходя из общего среднего этих двух выборок, то получим 28. Иными словами, дисперсия (сумма квадратов), основанная на внутригрупповой изменчивости, приводит к гораздо меньшим значениям, чем при вычислении на основе общей изменчивости (относительно общего среднего). Причина этого, очевидно, заключается в существенной разнице между средними значениями, и это различие между средними и объясняет существующее различии между суммами квадратов. В самом деле, если использовать для анализа приведенных данных модуль Дисперсионный анализ , будут получены следующие результаты:

Как видно из таблицы, общая сумма квадратов SS =28 разбита на сумму квадратов, обусловленную внутригрупповой изменчивостью (2+2=4 ; см. вторую строку таблицы) и сумму квадратов, обусловленную различием средних значений. (28-(2+2)=24; см первую строку таблицы).

SS ошибок и SS эффекта. Внутригрупповая изменчивость (SS ) обычно называется дисперсией ошибки. Это означает, что обычно при проведении эксперимента она не может быть предсказана или объяснена. С другой стороны, SS эффекта (или межгрупповую изменчивость) можно объяснить различием между средними значениями в изучаемых группах. Иными словами, принадлежность к некоторой группе объясняет межгрупповую изменчивость, т.к. нам известно, что эти группы обладают разными средними значениями.

Проверка значимости. Основные идеи проверки статистической значимости обсуждаются в главе Элементарные понятия статистики (глава 8). В этой же главе объясняются причины, по которым многие критерии используют отношение объясненной и необъясненной дисперсии. Примером такого использования является сам дисперсионный анализ. Проверка значимости в дисперсионном анализе основана на сравнении дисперсии, обусловленной межгрупповым разбросом (называемой средним квадратом эффекта или MS эффект ) и дисперсии, обусловленной внутригрупповым разбросом (называемой средним квадратом ошибки или MS ошибка ). Если верна нулевая гипотеза (равенство средних в двух популяциях), то можно ожидать сравнительно небольшое различие в выборочных средних из-за случайной изменчивости. Поэтому при нулевой гипотезе внутригрупповая дисперсия будет практически совпадать с общей дисперсией, подсчитанной без учета группой принадлежности. Полученные внутригрупповые дисперсии можно сравнить с помощью F - критерия, проверяющего, действительно ли отношение дисперсий значимо больше 1. В рассмотренном выше примере F - критерий показывает, что различие между средними статистически значимо.

Основная логика дисперсионного анализа. Подводя итоги, можно сказать, что целью дисперсионного анализа является проверка статистической значимости разницы между средними (для групп или переменных). Эта проверка проводится с помощью анализа дисперсии, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо, нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними.

Зависимые и независимые переменные. Переменные, значения которых определяется с помощью измерений в ходе эксперимента (например, балл, набранный при тестировании), называются зависимыми переменными. Переменные, которыми можно управлять при проведении эксперимента (например, методы обучения или другие критерии, позволяющие разделить наблюдения на группы) называются факторами или независимыми переменными. Более подробно эти понятия описаны в главе Элементарные понятия статистики (глава 8).

Многофакторный дисперсионный анализ

В рассмотренном выше простом примере вы могли бы сразу вычислить t-критерий для независимых выборок, используя соответствующую опцию модуля Основные статистики и таблицы. Полученные результаты, естественно, совпадут с результатами дисперсионного анализа. Однако дисперсионный анализ содержит гибкие и мощные технические средства, которые могут быть использованы для гораздо более сложных исследований.

Множество факторов. Мир по своей природе сложен и многомерен. Ситуации, когда некоторое явление полностью описывается одной переменной, чрезвычайно редки. Например, если мы пытаемся научиться выращивать большие помидоры, следует рассматривать факторы, связанные с генетической структурой растений, типом почвы, освещенностью, температурой и т.д. Таким образом, при проведении типичного эксперимента приходится иметь дело с большим количеством факторов. Основная причина, по которой использование дисперсионного анализа предпочтительнее повторного сравнения двух выборок при разных уровнях факторов с помощью t - критерия, заключается в том, что дисперсионный анализ более эффективен и, для малых выборок, более информативен.

Управление факторами. Предположим, что в рассмотренном выше примере анализа двух выборок мы добавим еще один фактор, например, Пол - Gender . Пусть каждая группа состоит из 3 мужчин и 3 женщин. План этого эксперимента можно представить в виде таблицы 2 на 2:

Эксперимент. Группа 1 Эксперимент. Группа 2
Мужчины 2 6
3 7
1 5
Среднее 2 6
Женщины 4 8
5 9
3 7
Среднее 4 8

До проведения вычислений, можно заметить, что в этом примере общая дисперсия имеет, по крайней мере, три источника:

(1) случайная ошибка (внутригрупповая дисперсия),

(2) изменчивость, связанная с принадлежностью к экспериментальной группе, и

(3) изменчивость, обусловленная полом объектов наблюдения.

(Отметим, что существует еще один возможный источник изменчивости – взаимодействие факторов , который мы обсудим позднее). Что произойдет, если мы не будем включать пол gender как фактор при проведении анализа и вычислим обычный t -критерий? Если мы будем вычислять суммы квадратов, игнорируя пол – gender (т.е., объединяя объекты разного пола в одну группу при вычислении внутригрупповой дисперсии, получив при этом сумму квадратов для каждой группы равную SS =10, и общую сумму квадратов SS = 10+10 = 20), то получим большее значение внутригрупповой дисперсии, чем при более точном анализе с дополнительным разбиением на подгруппы по полу - gender (при этом внутригрупповые средние будут равны 2, а общая внутригрупповая сумма квадратов равна SS = 2+2+2+2 = 8). Это различие связано с тем, что среднее значение для мужчин - males меньше, чем среднее значение для женщин – female , и это различие в средних значениях увеличивает суммарную внутригрупповую изменчивость, если фактор пола не учитывается. Управление дисперсией ошибки увеличивает чувствительность (мощность) критерия.

На этом примере видно еще одно преимущество дисперсионного анализа по сравнению с обычным t -критерием для двух выборок. Дисперсионный анализ позволяет изучать каждый фактор, управляя значениями остальных факторов. Это, в действительности, и является основной причиной его большей статистической мощности (для получения значимых результатов требуются меньшие объемы выборок). По этой причине дисперсионный анализ даже на небольших выборках дает статистически более значимые результаты, чем простой t - критерий.

Эффекты взаимодействия

Существует еще одно преимущество применения дисперсионного анализа по сравнению с обычным t - критерием: дисперсионный анализ позволяет обнаружить взаимодействие между факторами и, следовательно, позволяет изучать более сложные модели. Для иллюстрации рассмотрим еще один пример.

Главные эффекты, попарные (двухфакторные) взаимодействия. Предположим, что имеется две группы студентов, причем психологически студенты первой группы настроены на выполнение поставленных задач и более целеустремленны, чем студенты второй группы, состоящей из более ленивых студентов. Разобьем каждую группу случайным образом пополам и предложим одной половине в каждой группе сложное задание, а другой - легкое. После этого измерим, насколько напряженно студенты работают над этими заданиями. Средние значения для этого (вымышленного) исследования показаны в таблице:

Какой вывод можно сделать из этих результатов? Можно ли заключить, что: (1) над сложным заданием студенты трудятся более напряженно; (2) целеустремленные студенты работают упорнее, чем ленивые? Ни одно из этих утверждений не отражает сущность систематического характера средних, приведенных в таблице. Анализируя результаты, правильнее было бы сказать, что над сложными заданиями работают упорнее только целеустремленные студенты, в то время как над легкими заданиями только ленивые работают упорнее. Другими словами характер студентов и сложность задания взаимодействуя между собой влияют на затрачиваемое усилие. Это пример парного взаимодействия между характером студентов и сложностью задания. Отметим, что утверждения 1 и 2 описывают главные эффекты .

Взаимодействия высших порядков. В то время как объяснить попарные взаимодействия еще сравнительно легко, взаимодействия высших порядков объяснить значительно сложнее. Представим себе, что в рассматриваемый выше пример, введен еще один фактор пол -Gender и мы получили следующую таблицу средних значений:

Какие теперь выводы можно сделать из полученных результатов? Графики средних позволяют легко интерпретировать сложные эффекты. Модуль дисперсионного анализа позволяет строить эти графики практически одним щелчком мышки.

Изображение на графиках внизу представляет собой изучаемое трехфакторное взаимодействие.

Глядя на графики, можно сказать, что у женщин существует взаимодействие между характером и сложностью теста: целеустремленные женщины работают над трудным заданием более напряженно, чем над легким. У мужчин это же взаимодействие носит обратный характер. Видно, что описание взаимодействия между факторами становится более запутанным.

Общий способ описания взаимодействий. В общем случае взаимодействие между факторами описывается в виде изменения одного эффекта под воздействием другого. В рассмотренном выше примере двухфакторное взаимодействие можно описать как изменение главного эффекта фактора, характеризующего сложность задачи, под воздействием фактора, описывающего характер студента. Для взаимодействия трех факторов из предыдущего параграфа можно сказать, что взаимодействие двух факторов (сложности задачи и характера студента) изменяется под воздействием пола Gender . Если изучается взаимодействие четырех факторов, можно сказать, что взаимодействие трех факторов, изменяется под воздействием четвертого фактора, т.е. существуют различные типы взаимодействий на разных уровнях четвертого фактора. Оказалось, что во многих областях взаимодействие пяти или даже большего количества факторов не является чем-то необычным.

Сложные планы

Межгрупповые и внутригрупповые планы (планы с повторными измерениями)

При сравнении двух различных групп обычно используется t - критерий для независимых выборок (из модуля Основные статистики и таблицы ). Когда сравниваются две переменные на одном и том же множестве объектов (наблюдений), используется t -критерий для зависимых выборок. Для дисперсионного анализа также важно зависимы или нет выборки. Если имеются повторные измерения одних и тех же переменных (при разных условиях или в разное время) для одних и тех же объектов , то говорят о наличии фактора повторных измерений (называемого также внутригрупповым фактором, поскольку для оценки его значимости вычисляется внутригрупповая сумма квадратов). Если сравниваются разные группы объектов (например, мужчины и женщины, три штамма бактерий и т.п.), то разница между группами описывается межгрупповым фактором. Способы вычисления критериев значимости для двух описанных типов факторов различны, но общая их логика и интерпретации совпадает.

Меж- и внутригрупповые планы. Во многих случаях эксперимент требует включение в план и межгруппового фактора, и фактора повторных измерений. Например, измеряются математические навыки студентов женского и мужского пола (где пол – Gender -межгрупповой фактор) в начале и в конце семестра. Два измерения навыковкаждого студента образуют внутригрупповой фактор (фактор повторных измерений). Интерпретация главных эффектов и взаимодействий для межгрупповых факторов и факторов повторных измерений совпадает, и оба типа факторов могут, очевидно, взаимодействовать между собой (например, женщины приобретают навыки в течение семестра, а мужчины их теряют).

Неполные (гнездовые) планы

Во многих случаях можно пренебречь эффектом взаимодействия. Это происходит или когда известно, что в популяции эффект взаимодействия отсутствует, или когда осуществление полного факторного плана невозможно. Например, изучается влияние четырех добавок к топливу на расход горючего. Выбираются четыре автомобиля и четыре водителя. Полный факторный эксперимент требует, чтобы каждая комбинация: добавка, водитель, автомобиль - появились хотя бы один раз. Для этого нужно не менее 4 x 4 x 4 = 64 групп испытаний, что требует слишком больших временных затрат. Кроме того, вряд ли существует взаимодействие между водителем и добавкой к топливу. Принимая это во внимание, можно использовать план Латинские квадраты, в котором содержится лишь16 групп испытаний (четыре добавки обозначаются буквами A, B, C и D):

Латинские квадраты описаны в большинстве книг по планированию экспериментов (например, Hays, 1988; Lindman, 1974; Milliken and Johnson, 1984; Winer, 1962), и здесь они не будут детально обсуждаться. Отметим, что латинские квадраты это не n олные планы, в которых участвуют не все комбинации уровней факторов. Например, водитель 1 управляет автомобилем 1 только с добавкой А, водитель 3 управляет автомобилем 1 только с добавкой С. Уровни фактора добавок (A, B, C и D) вложены в ячейки таблицы автомобиль x водитель – как яйца в гнезда. Это мнемоническое правило полезно для понимания природы гнездовых или вложенных планов. Модуль Дисперсионный анализ предоставляет простые способы анализ планов такого типа.

Ковариационный анализ

Основная идея

В разделе Основные идеи кратко обсуждалась идея управления факторами и то, каким образом включение аддитивных факторов позволяет уменьшать сумму квадратов ошибок и увеличивать статистическую мощность плана. Все это может быть распространено и на переменные с непрерывным множеством значений. Когда такие непрерывные переменные включаются в план в качестве факторов, они называются ковариатами .

Фиксированные ковариаты

Предположим, что сравниваются математические навыки двух групп студентов, которые обучались по двум различным учебникам. Предположим также, что имеются данные о коэффициенте интеллекта (IQ) для каждого студента. Можно предположить, что коэффициент интеллекта связан с математическими навыками, и использовать эту информацию. Для каждой из двух групп студентов можно вычислить коэффициент корреляции между IQ и математическими навыками. Используя этот коэффициент корреляции, можно выделить долю дисперсии в группах, объясняемую влиянием IQ и необъясняемую долю дисперсии (см. также Элементарные понятия статистики (глава 8) и Основные статистики и таблицы (глава 9)). Оставшаяся доля дисперсии используется при проведении анализа как дисперсия ошибки. Если имеется корреляция между IQ и математическими навыками, то можно существенно уменьшить дисперсии ошибки SS /(n -1) .

Влияние ковариат на F- критерий. F- критерий оценивает статистическую значимость различия средних значений в группах, при этом вычисляется отношение межгрупповой дисперсии (MS effect ) к дисперсии ошибок (MS error ) . Если MS error уменьшается, например, при учете фактора IQ, значение F увеличивается.

Множество ковариат. Рассуждения, использованные выше для одной ковариаты (IQ), легко распространяются на несколько ковариат. Например, кроме IQ, можно включить измерение мотивации, пространственного мышления и т.д. Вместо обычного коэффициента корреляции при этом используется множественный коэффициент корреляции.

Когда значение F -критерия уменьшается. Иногда введение ковариат в план эксперимента уменьшает значение F -критерия. Обычно это указывает на то, что ковариаты коррелированы не только с зависимой переменной (например, математическими навыками), но и с факторами (например, с разными учебниками). Предположим, что IQ измеряется в конце семестра, после почти годового обучения двух групп студентов по двум разным учебникам. Хотя студенты разбивались на группы случайным образом, может оказаться, что различие учебников настолько велико, что и IQ и математические навыки в разных группах будут сильно различаться. В этом случае, ковариаты не только уменьшают дисперсию ошибок, но и межгрупповую дисперсию. Другими словами, после контроля за разностью IQ в разных группах, разность в математических навыках уже будет несущественной. Можно сказать иначе. После “исключения” влияния IQ, неумышленно исключается и влияние учебника на развитие математических навыков.

Скорректированные средние. Когда ковариата влияет на межгрупповой фактор, следует вычислять скорректированные средние , т.е. такие средние, которые получаются после удаления всех оценок ковариат.

Взаимодействие между ковариатами и факторами. Также как исследуется взаимодействие между факторами, можно исследовать взаимодействие между ковариатами и между группами факторов. Предположим, что один из учебников особенно подходит для умных студентов. Второй учебник для умных студентов скушен, а для менее умных студентов этот же учебник труден. В результате имеется положительная корреляция между IQ и результатом обучения в первой группе (более умные студенты, лучше результат) и нулевая или небольшая отрицательная корреляция во второй группе (чем умнее студент, тем менее вероятно приобретение математических навыков из второго учебника). В некоторых исследованиях эта ситуация обсуждается как пример нарушения предположений ковариационного анализа. Однако так как в модуле Дисперсионный анализ используются самые общие способы ковариационного анализа, можно, в частности, оценить статистическую значимость взаимодействия между факторами и ковариатами.

Переменные ковариаты

В то время как фиксированные ковариаты обсуждаются в учебниках достаточно часто, переменные ковариаты упоминаются намного реже. Обычно, при проведении экспериментов с повторными измерениями, нас интересуют различия в измерениях одних и тех же величин в разные моменты времени. А именно, нас интересует значимость этих различий. Если одновременно с измерениями зависимых переменных проводится измерение ковариат, можно вычислить корреляцию между ковариатой и зависимой переменной.

Например, можно изучать интерес к математике и математические навыки в начале и в конце семестра. Интересно было бы проверить, коррелированы ли между собой изменения в интересе к математике с изменением математических навыков.

Модуль Дисперсионный анализ в STATISTICA автоматически оценивает статистическую значимость изменения ковариат в тех планах, где это возможно.

Многомерные планы: многомерный дисперсионный и ковариационный анализ

Межгрупповые планы

Все рассматриваемые ранее примеры включали только одну зависимую переменную. Когда одновременно имеется несколько зависимых переменных, возрастает лишь сложность вычислений, а содержание и основные принципы не меняются.

Например, проводится исследование двух различных учебников. При этом изучаются успехи студентов в изучении физики и математики. В этом случае имеются две зависимые переменные и нужно выяснить, как влияют на них одновременно два разных учебника. Для этого можно воспользоваться многомерным дисперсионным анализом (MANOVA). Вместо одномерного F критерия, используется многомерный F критерий (l-критерий Уилкса), основанный на сравнении ковариационной матрицы ошибок и межгрупповой ковариационной матрицы.

Если зависимые переменные коррелированы между собой, то эта корреляция должна учитываться при вычислении критерия значимости. Очевидно, если одно и то же измерение повторяется дважды, то ничего нового получить при этом нельзя. Если к имеющемуся измерению добавляется коррелированное с ним измерение, то получается некоторая новая информация, но при этом новая переменная содержит избыточную информацию, которая отражается в ковариации между переменными.

Интерпретация результатов. Если общий многомерный критерий значим, можно заключить, что соответствующий эффект (например, тип учебника) значим. Однако встают следующие вопросы. Влияет ли тип учебника на улучшение только математических навыков, только физических навыков, или одновременно на улучшение тех и других навыков. В действительности, после получения значимого многомерного критерия, для отдельного главного эффекта или взаимодействия исследуется одномерный F критерий. Другими словами, отдельно исследуются зависимые переменные, которые вносят вклад в значимость многомерного критерия.

Планы с повторными измерениями

Если измеряются математические и физические навыки студентов в начале семестра и в конце, то это и есть повторные измерения. Изучение критерия значимости в таких планах это логическое развитие одномерного случая. Заметим, что методы многомерного дисперсионного анализа обычно также используются для исследования значимости одномерных факторов повторных измерений, имеющих более чем два уровня. Соответствующие применения будут рассмотрены позднее в этой части.

Суммирование значений переменных и многомерный дисперсионный анализ

Даже опытные пользователи одномерного и многомерного дисперсионного анализа часто приходят в затруднение, получая разные результаты при применении многомерного дисперсионного анализа, например, для трех переменных, и при применении одномерного дисперсионного анализа к сумме этих трех переменных, как к одной переменной.

Идея суммирования переменных состоит в том, что каждая переменная содержит в себе некоторую истинную переменную, которая и исследуется, а также случайную ошибку измерения. Поэтому при усреднении значений переменных, ошибка измерения будет ближе к 0 для всех измерений и усредненное значений будет более надежным. На самом деле, в этом случае применение дисперсионного анализа к сумме переменных разумно и является мощным методом. Однако если зависимые переменные по своей природе многомерны, суммирование значений переменных неуместно.

Например, пусть зависимые переменные состоят из четырех показателей успеха в обществе . Каждый показатель характеризует совершенно независимую сторону человеческой деятельности (например, профессиональный успех, преуспеваемость в бизнесе, семейное благополучие и т.д.). Сложение этих переменных подобно сложению яблока и апельсина. Сумма этих переменных не будет подходящим одномерным показателем. Поэтому с такими данными нужно обходится как с многомерными показателями в многомерном дисперсионном анализе .

Анализ контрастов и апостериорные критерии

Почему сравниваются отдельные множества средних?

Обычно гипотезы относительно экспериментальных данных формулируются не просто в терминах главных эффектов или взаимодействий. Примером может служить такая гипотеза: некоторый учебник повышает математические навыки только у студентов мужского пола, в то время как другой учебник примерно одинаково эффективен для обоих полов, но все же менее эффективен для мужчин. Можно предсказать, что эффективность учебника взаимодействует с полом студента. Однако этот прогноз касается также природы взаимодействия. Ожидается значительное различие между полами для обучающихся по одной книге и практически не зависимые от пола результаты для обучающихся по другой книге. Такой тип гипотез обычно исследуется с помощью анализа контрастов.

Анализ контрастов

Если говорить коротко, то анализ контрастов позволяет оценивать статистическую значимость некоторых линейных комбинаций эффектов сложного плана. Анализ контрастов главный и обязательный элемент любого сложного плана дисперсионного анализа. Модуль Дисперсионный анализ имеет достаточно разнообразные возможности анализа контрастов, которые позволяют выделять и анализировать любые типы сравнений средних.

Апостериорные сравнения

Иногда в результате обработки эксперимента обнаруживается неожиданный эффект. Хотя в большинстве случаев творческий исследователь сможет объяснить любой результат, это не дает возможностей для дальнейшего анализа и получения оценок для прогноза. Эта проблема является одной из тех, для которых используются апостериорные критерии , то есть критерии, не использующие априорные гипотезы. Для иллюстрации рассмотрим следующий эксперимент. Предположим, что на 100 карточках записаны числа от 1 до 10. Опустив все эти карточки в шапку, мы случайным образом выбираем 20 раз по 5 карточек, и вычисляем для каждой выборки среднее значение (среднее чисел, записанных на карточки). Можно ли ожидать, что найдутся две выборки, у которых средние значения значимо отличаются? Это очень правдоподобно! Выбирая две выборки с максимальным и минимальным средним, можно получить разность средних, сильно отличающуюся от разности средних, например, первых двух выборок. Эту разность можно исследовать, например, с помощью анализа контрастов. Если не вдаваться в детали, то существует несколько, так называемых апостериорных критериев, которые основаны в точности на первом сценарии (взятие экстремальных средних из 20 выборок), т. е. эти критерии основаны на выборе наиболее отличающихся средних для сравнения всехсредних значений в плане. Эти критерии применяются для того, чтобы чисто случайно не получить искусственный эффект, например, обнаружить значимое различие между средними, когда его нет. Модуль Дисперсионный анализ предлагает широкий выбор таких критериев. Когда в эксперименте, связанном с несколькими группами, встречаются неожиданные результаты, то используются апостериорные процедуры для исследования статистической значимости полученных результатов.

Сумма квадратов типа I, II, III и IV

Многомерная регрессия и дисперсионный анализ

Существует тесная взаимосвязь между методом многомерной регрессии и дисперсионным анализом (анализом вариаций). И в том и в другом методе исследуется линейная модель. Если говорить коротко, то практически все планы эксперимента можно исследовать с помощью многомерной регрессии. Рассмотрим следующий простой межгрупповой 2 x 2 план.

DV A B AxB
3 1 1 1
4 1 1 1
4 1 -1 -1
5 1 -1 -1
6 -1 1 -1
6 -1 1 -1
3 -1 -1 1
2 -1 -1 1

Столбцы А и В содержат коды, характеризующие уровни факторов А и В, столбец АxВ содержит произведение двух столбцов А и В. Мы можем анализировать эти данные с помощью многомерной регрессии. Переменная DV определяется как зависимая переменная, переменные от A до AxB как независимые переменные. Исследование значимости для коэффициентов регрессии будет совпадать с вычислениями в дисперсионном анализе значимости главных эффектов факторов A и B и эффекта взаимодействия AxB .

Несбалансированные и сбалансированные планы

При вычислении корреляционной матрицы для всех переменных, например, для данных, изображенных выше, можно заметить, что главные эффекты факторов A и B и эффект взаимодействия AxB некоррелированы. Это свойство эффектов называют также ортогональностью. Говорят, что эффекты A и B - ортогональны или независимы друг от друга. Если все эффекты в плане ортогональны друг другу, как в приведенном выше примере, то говорят, что план сбалансирован .

Сбалансированные планы обладают “хорошим свойством”. Вычисления при анализе таких планов очень просты. Все вычисления сводятся к вычислению корреляции между эффектами и зависимыми переменными. Так как эффекты ортогональны, частные корреляции (как в полной многомерной регрессии) не вычисляются. Однако в реальной жизни планы не всегда сбалансированы.

Рассмотрим реальные данные с неравным числом наблюдений в ячейках.

Фактор A Фактор B
B1 B2
A1 3 4, 5
A2 6, 6, 7 2

Если закодировать эти данные как выше и вычислить корреляционную матрицу для всех переменных, то окажется, что факторы плана коррелированы друг с другом. Факторы в плане теперь не ортогональны и такие планы называются несбалансированными. Заметим, что в рассматриваемом примере, корреляция между факторами полностью связана с различием частот 1 и -1 в столбцах матрицы данных. Другими словами, планы экспериментов с неравными объемами ячеек (точнее, непропорциональными объемами) будут несбалансированными, это означает, что главные эффекты и взаимодействия будут смешиваться. В этом случае для вычисления статистической значимости эффектов нужно полностью вычислять многомерную регрессию. Здесь имеется несколько стратегий.

Сумма квадратов типа I, II, III и IV

Сумма квадратов типа I и III . Для изучения значимости каждого фактора в многомерной модели можно вычислять частную корреляцию каждого фактора, при условии, что все другие факторы уже учтены в модели. Можно также вводить факторы в модель пошаговым способом, фиксируя все факторы, уже введенные в модель и игнорируя все остальные факторы. Вообще, в этом и состоит различие между типом III и типом I суммы квадратов (эта терминология была введена в SAS, см. например, SAS, 1982; подробное обсуждение можно также найти в Searle, 1987, стр. 461; Woodward, Bonett, and Brecht, 1990, стр. 216; или Milliken and Johnson, 1984, стр. 138).

Сумма квадратов типа II. Следующая “промежуточная” стратегия формирования модели состоит: в контроле всех главных эффектов при исследовании значимости отдельного главного эффекта; в контроле всех главных эффектов и всех попарных взаимодействий, когда исследуется значимость отдельного попарного взаимодействия; в контроле всех главных эффектов всех попарных взаимодействий и всех взаимодействий трех факторов; при исследовании отдельного взаимодействия трех факторов и т.д. Суммы квадратов для эффектов, вычисляемые таким способом, называются типом II суммы квадратов. Итак, тип II суммы квадратов контролирует все эффекты того же порядка и ниже, игнорируя все эффекты более высокого порядка.

Сумма квадратов типа IV . Наконец, для некоторых специальных планов с пропущенными ячейками (неполными планами) можно вычислять, так называемые, типа IV суммы квадратов. Этот метод будет обсуждаться позднее в связи с неполными планами (планами с пропущенными ячейками).

Интерпретация гипотезы о сумме квадратов типа I, II, и III

Сумму квадратов типа III легче всего интерпретировать. Напомним, что суммы квадратов типа III исследуют эффекты после контроля всех других эффектов. Например, после нахождения статистически значимого типа III эффекта для фактора A в модуле Дисперсионный анализ , можно сказать, что существует единственный значимый эффект фактора A , после введения всех других эффектов (факторов) и соответственно интерпретировать этот эффект. Вероятно в 99% всех приложений дисперсионного анализа именно этот тип критерия интересует исследователя. Этот тип суммы квадратов обычно вычисляется в модуле Дисперсионный анализ по умолчанию, независимо от того выбрана опция Регрессионный подход или нет (стандартные подходы принятые в модуле Дисперсионный анализ обсуждаются ниже).

Значимые эффекты, полученные с помощью сумм квадратов типа или типа II суммы квадратов интерпретировать не так легко. Лучше всего их интерпретировать в контексте пошаговой многомерной регрессии. Если при использовании суммы квадратов типа I главный эффект фактора В оказался значим (после включения в модель фактора А, но перед добавлением взаимодействия между А и В), можно заключить, что существует значимый главный эффект фактора В, при условии, что нет взаимодействия между факторами А и В. (Если при использовании критерия типа III , фактор В также оказался значимым, то можно заключить, что существует значимый главный эффект фактора B, после введения в модель всех других факторов и их взаимодействий).

В терминах маргинальных средних гипотезы типа I и типа II обычно не имеют простой интерпретации. В этих случаях говорят, что нельзя интерпретировать значимость эффектов, рассматривая только маргинальные средние. Скорее представленные p значений средних имеют отношение к сложной гипотезе, которая комбинирует средние и объем выборки. Например, тип II гипотезы для фактора А в простом примере плана 2 x 2, рассматриваемом ранее будут (см. Woodward, Bonett, and Brecht, 1990, стр. 219):

nij - число наблюдений в ячейке

uij - среднее значение в ячейке

n . j - маргинальное среднее

Если не вдаваться в детали (более подробно см. Milliken and Johnson, 1984, глава 10), то ясно, что это не простые гипотезы и в большинстве случаев ни одна из них не представляет особенного интереса у исследователя. Однако существуют случаи, когда гипотезы типа I могут быть интересны.

Принимаемый по умолчанию вычислительный подход в модуле Дисперсионный анализ

По умолчанию, если не отмечена опция Регрессионный подход , модуль Дисперсионный анализ использует модель средних по ячейкам . Для этой модели характерно, что суммы квадратов для разных эффектов вычисляются для линейных комбинаций средних значений по ячейкам. В полном факторном эксперименте это приводит к суммам квадратов, которые совпадают с суммами квадратов, обсуждаемыми ранее как тип III . Однако в опции Спланированные сравнения (в окне Результаты дисперсионного анализа ), пользователь может проверять гипотезу относительно любой линейной комбинации взвешенных или невзвешенных средних по ячейкам. Таким образом, пользователь может проверять не только гипотезы типа III , но гипотезы любого типа (включая тип IV ). Этот общий подход особенно полезен, когда исследуются планы с пропущенными ячейками (так называемые неполные планы).

Для полных факторных планов этот подход полезно также использовать в тех случаях, когда хотят анализировать взвешенные маргинальные средние. Например, предположим, что в рассматриваемом ранее простом 2 x 2 плане, нужно сравнить взвешенные (по уровням фактора B ) маргинальные средние для фактора А. Это бывает полезным, когда распределение наблюдений по ячейкам не готовилось экспериментатором, а строилось случайно, и эта случайность отражается в распределении числа наблюдений по уровням фактора B в совокупности.

Например, имеется фактор - возраст вдов. Возможная выборка респондентов разбита на две группы: моложе 40 лет и старше 40 (фактор В). Второй фактор (фактор А) в плане - получали или нет социальную поддержку вдовы в некотором агентстве (при этом одни вдовы были выбраны случайно, другие служили в качестве контроля). В этом случае распределение вдов по возрастам в выборке отражает действительное распределение вдов по возрастам в совокупности. Оценке эффективности группы социальной поддержки вдов по всем возрастам будет соответствовать взвешенное среднее для двух возрастных групп (с весами соответствующими числу наблюдений в группе).

Спланированные сравнения

Заметим, что сумма введенных коэффициентов контрастов не обязательно равна 0 (нулю). Вместо этого программа будет автоматически вносить поправки, чтобы соответствующие гипотезы не смешивались с общим средним.

Для иллюстрации этого вернемся опять к простому 2 x 2 плану, рассмотренному ранее. Напомним, что числа наблюдений в ячейках этого несбалансированного плана -1, 2, 3, и 1. Предположим, что мы хотим сравнить взвешенные маргинальные средние для фактора А (взвешенные с частотой уровней фактора В). Можно ввести коэффициенты контраста:

Заметим, что эти коэффициенты не дают в сумме 0. Программа будет устанавливать коэффициенты так, что в сумме они будут давать 0, и при этом будут сохраняться их относительные значения, т. е.:

1/3 2/3 -3/4 -1/4

Эти контрасты будут сравнивать взвешенные средние для фактора А.

Гипотезы о главном среднем. Гипотеза, о том, что не взвешенное главное среднее равно 0 может исследоваться с помощью коэффициентов:

Гипотеза о том, что взвешенное главное среднее равно 0 проверяется с помощью:

Ни в одном случае программа не производит корректировки коэффициентов контрастов.

Анализ планов с пропущенными ячейками (неполные планы)

Факторные планы, содержащие пустые ячейки (обработка комбинаций ячеек, в которых нет наблюдений) называются неполными. В таких планах некоторые факторы обычно не ортогональны и некоторые взаимодействия не могут быть вычислены. Вообще не существует лучшего метода анализа таких планов.

Регрессионный подход

В некоторых старых программах, которые основаны на анализе планов дисперсионного анализа с помощью многомерной регрессии, факторы в неполных планах по умолчанию задаются обычным образом (как будто план полный). Затем производится многомерный регрессионный анализ для этих фиктивно закодированных факторов. К несчастью, этот метод приводит к результатам, которые очень трудно, или даже невозможно, интерпретировать, так как неясно, как каждый эффект участвует в линейной комбинации средних значений. Рассмотрим следующий простой пример.

Фактор A Фактор B
B1 B2
A1 3 4, 5
A2 6, 6, 7 Пропущено

Если будет выполняться многомерная регрессия вида Зависимая переменная = Константа + Фактор A + Фактор B , то гипотеза о значимости факторов A и B в терминах линейных комбинаций средних выглядит так:

Фактор A: Ячейка A1,B1 = Ячейка A2,B1

Фактор B: Ячейка A1,B1 = Ячейка A1,B2

Этот случай прост. В более сложных планах невозможно фактически определить, что точно будет исследоваться.

Средние ячеек, подход дисперсионного анализа, гипотезы типа IV

Подход, который рекомендуется в литературе и который кажется предпочтительнее - исследование осмысленных (с точки зрения исследовательских задач) априорных гипотез о средних, наблюдаемых в ячейках плана. Подробное обсуждение этого подхода можно найти в Dodge (1985), Heiberger (1989), Milliken and Johnson (1984), Searle (1987), или Woodward, Bonett, and Brecht (1990). Суммы квадратов, ассоциированные с гипотезами о линейной комбинации средних в неполных планах, исследующие оценки части эффектов, называются также суммами квадратов IV .

Автоматическая генерация гипотез типа IV . Когда многофакторные планы имеют сложный характер пропущенных ячеек, желательно определить ортогональные (независимые) гипотезы, исследование которых эквивалентно исследованию главных эффектов или взаимодействий. Были развиты алгоритмические (вычислительные) стратегии (основанные на псевдообратной матрице плана) для генерирования подходящих весов для таких сравнений. К сожалению, окончательные гипотезы определяются не единственным образом. Конечно, они зависят от порядка, в котором эффекты были определены и редко допускают простую интерпретацию. Поэтому рекомендуется внимательно изучить характер пропущенных ячеек, затем формулировать гипотезы типа IV , которые наиболее содержательно соответствуют целям исследования. Затем исследовать эти гипотезы, используя опцию Спланированные сравнения в окне Результаты . Самый легкий путь задать сравнения в этом случае - требовать введения вектора контрастов для всех факторов вместе в окне Спланированные сравнения. После вызова диалогового окна Спланированные сравнения будут показаны все группы текущего плана и помечены те, которые пропущены.

Пропущенные ячейки и проверка специфического эффекта

Существует несколько типов планов, в которых расположение пропущенных ячеек не случайно, но тщательно спланировано, что позволяет проводить простой анализ главных эффектов не затрагивая другие эффекты. Например, когда необходимое число ячеек в плане недоступно, часто используются планы Латинские квадраты для оценивания главных эффектов нескольких факторов с большим числом уровней. Например, 4 x 4 x 4 x 4 факторный план требует 256 ячеек. В то же время можно использовать Греко-латинский квадрат для оценки главных эффектов, имея только 16 ячеек в плане (глава Планирование эксперимента , том IV, содержит детальное описание таких планов). Неполные планы, в которых главные эффекты (и некоторые взаимодействия) могут быть оценены с помощью простых линейных комбинаций средних, называются сбалансированными неполными планами .

В сбалансированных планах стандартный (по умолчанию) метод генерирования контрастов (весов) для главных эффектов и взаимодействий будет затем производить анализ таблицы дисперсий, в которой суммы квадратов для соответствующих эффектов не смешиваются друг с другом. Опция Специфический эффекты окна Результаты будет генерировать пропущенные контрасты, записывая ноль в пропущенные ячейки плана. Сразу после того, как будет запрошена опция Специфический эффекты для пользователя, изучающего некоторую гипотезу, появляется таблица результатов с фактическими весами. Заметим, что в сбалансированном плане, суммы квадратов соответствующих эффектов вычисляются только, если эти эффекты ортогональны (независимы) всем другим главным эффектам и взаимодействиям. В противном случае нужно воспользоваться опцией Спланированные сравнения для изучения содержательных сравнений между средними.

Пропущенные ячейки и объединенные эффекты/члены ошибки

Если опция Регрессионное подход в стартовой панели модуля Дисперсионный анализ не выбрана, то при вычислении суммы квадратов для эффектов будет использоваться модель средних по ячейкам (установка по умолчанию). Если план не сбалансирован, то при объединении неортогональных эффектов (см. выше обсуждение опции Пропущенные ячейки и специфический эффект ) можно получить сумму квадратов, состоящую из неортогональных (или перекрывающихся) компонент. Полученные при этом результаты, обычно не интерпретируемы. Поэтому нужно быть очень осторожным при выборе и реализации сложных неполных экспериментальных планов.

Существует много книг с детальным обсуждением планов разного типа. (Dodge, 1985; Heiberger, 1989; Lindman, 1974; Milliken and Johnson, 1984; Searle, 1987; Woodward and Bonett, 1990), но такого рода информация лежит вне границ этого учебника. Тем не менее, позднее в этом разделе будет продемонстрирован анализ различного типа планов.

Предположения и эффекты нарушения предположений

Отклонение от предположения о нормальности распределений

Предположим, что зависимая переменная измерена в числовой шкале. Предположим также, что зависимая переменная имеет нормальное распределение внутри каждой группы. Дисперсионный анализ содержит широкий набор графиков и статистик для обоснования этого предположения.

Эффекты нарушения. Вообще F критерий очень устойчив к отклонению от нормальности (подробные результаты см. в работе Lindman, 1974). Если эксцесс больше 0, то значение статистики F может стать очень маленьким. Нулевая гипотеза при этом принимается, хотя она может быть и не верна. Ситуация меняется на противоположную, когда эксцесс меньше 0. Асимметрия распределения обычно незначительно влияет на F статистику. Если число наблюдений в ячейке достаточно большое, то отклонение от нормальности не имеет особого значения в силу центральной предельной теоремы , в соответствии с которой, распределение среднего значения близко к нормальному, независимо от начального распределения. Подробное обсуждение устойчивости F статистики можно найти в Box and Anderson (1955), или Lindman (1974).

Однородность дисперсии

Предположения. Предполагается, что дисперсии разных групп плана одинаковы. Это предположение называется предположением об однородности дисперсии. Вспомним, что в начале этого раздела, описывая вычисление суммы квадратов ошибок, мы производили суммирование внутри каждой группы. Если дисперсии в двух группах отличаются друг от друга, то сложение их не очень естественно и не дает оценки общей внутригрупповой дисперсии (так как в этом случае общей дисперсии вообще не существует). Модуль Дисперсионный анализ - ANOVA /MANOVA содержит большой набор статистических критериев обнаружения отклонения от предположений однородности дисперсии.

Эффекты нарушения. Линдман (Lindman 1974, стр. 33) показывает, что F критерий вполне устойчив относительно нарушения предположений однородности дисперсии (неоднородность дисперсии, см. также Box, 1954a, 1954b; Hsu, 1938).

Специальный случай: коррелированность средних и дисперсий. Бывают случаи, когда F статистика может вводить в заблуждение. Это бывает, когда в ячейках плана средние значения коррелированы с дисперсией. Модуль Дисперсионный анализ позволяет строить диаграммы рассеяния дисперсии или стандартного отклонения относительно средних для обнаружения такой корреляции. Причина, по которой такая корреляция опасна, состоит в следующем. Представим себе, что имеется 8 ячеек в плане, 7 из которых имеют почти одинаковое среднее, а в одной ячейке среднее намного больше остальных. Тогда F критерий может обнаружить статистически значимый эффект. Но предположим, что в ячейке с большим средним значением и дисперсия значительно больше остальных, т.е. среднее значение и дисперсия в ячейках зависимы (чем больше среднее, тем больше дисперсия). В этом случае большое среднее значение ненадежно, так как оно может быть вызвано большой дисперсией данных. Однако F статистика, основанная на объединенной дисперсии внутри ячеек, будет фиксировать большое среднее, хотя критерии, основанные на дисперсии в каждой ячейке, не все различия в средних будут считать значимыми.

Такой характер данных (большое среднее и большая дисперсия) - часто встречается, когда имеются резко выделяющиеся наблюдения. Одно или два резко выделяющихся наблюдений сильно смещают среднее значение и очень увеличивают дисперсию.

Однородность дисперсии и ковариаций

Предположения. В многомерных планах, с многомерными зависимыми измерениями, также применяются предположение об однородности дисперсии, описанные ранее. Однако так как существуют многомерные зависимые переменные, то требуется так же чтобы их взаимные корреляции (ковариации) были однородны по всем ячейкам плана. Модуль Дисперсионный анализ предлагает разные способы проверки этих предположений.

Эффекты нарушения . Многомерный аналог F - критерия - λ-критерий Уилкса. Не так много известно об устойчивости (робастности) λ-критерия Уилкса относительно нарушения указанных выше предположений. Тем не менее, так как интерпретация результатов модуля Дисперсионный анализ основывается обычно на значимости одномерных эффектов (после установления значимости общего критерия), обсуждение робастности касается, в основном, одномерного дисперсионного анализа. Поэтому должна быть внимательно исследована значимость одномерных эффектов.

Специальный случай: ковариационный анализ. Особенно серьезные нарушения однородности дисперсии/ковариаций могут происходить, когда в план включаются ковариаты. В частности, если корреляция между ковариатами и зависимыми измерениями различна в разных ячейках плана, может последовать неверное истолкование результатов. Следует помнить, что в ковариационном анализе, в сущности, проводится регрессионный анализ внутри каждой ячейки для того, чтобы выделить ту часть дисперсии, которая соответствует ковариате. Предположение об однородности дисперсии/ковариации предполагает, что этот регрессионный анализ проводится при следующем ограничении: все регрессионные уравнения (наклоны) для всех ячеек одинаковы. Если это не предполагается, то могут появиться большие ошибки. Модуль Дисперсионный анализ имеет несколько специальных критериев для проверки этого предположения. Можно посоветовать использовать эти критерии, для того, чтобы убедиться, что регрессионные уравнения для различных ячеек примерно одинаковы.

Сферичность и сложная симметрия: причины использования многомерного подхода к повторным измерениям в дисперсионном анализе

В планах, содержащих факторы повторных измерений с более чем двумя уровнями, применение одномерного дисперсионного анализа требует дополнительных предположений: предположения о сложной симметрии и предположения о сферичности. Эти предположения редко выполняются (см. ниже). Поэтому в последние годы многомерный дисперсионный анализ завоевал популярность в таких планах (оба подхода совмещены в модуле Дисперсионный анализ ).

Предположение о сложной симметрии Предположение о сложной симметрии состоит в том, что дисперсии (общие внутригрупповые) и ковариации (по группам) для различных повторных измерений однородны (одинаковы). Это достаточное условие для того, чтобы одномерный F критерий для повторных измерений был обоснованным (т.е. выданные F-значения в среднем соответствовали F-распределению). Однако в данном случае это условие не является необходимым.

Предположение о сферичности. Предположение о сферичности является необходимым и достаточным условием того, чтобы F-критерий был обоснованным. Оно состоит в том, что внутри групп все наблюдения независимы и одинаково распределены. Природа этих предположений, а также влияние их нарушений обычно не очень хорошо описаны в книгах по дисперсионному анализу - эта будет описано в следующих параграфах. Там же будет показано, что результаты одномерного подхода могут отличаться от результатов многомерного подхода, и будет объяснено, что это означает.

Необходимость независимости гипотез. Общий способ анализа данных в дисперсионном анализе – это подгонка модели . Если относительно модели, соответствующей данным, имеются некоторые априорные гипотезы, то дисперсия разбивается для проверки этих гипотез (критерии главных эффектов, взаимодействий). С точки зрения вычислений, этот подход генерирует некоторое множество контрастов (множество сравнений средних в плане). Однако если контрасты не независимы друг от друга, разбиение дисперсий становится бессодержательным. Например, если два контраста A и B тождественны и выделяется соответствующая им часть из дисперсии, то одна и та же часть выделяется дважды. Например, глупо и бессмысленно выделять две гипотезы: “среднее в ячейке 1 выше среднего в ячейке 2” и “среднее в ячейке 1 выше среднего в ячейке 2”. Итак, гипотезы должны быть независимы или ортогональны.

Независимые гипотезы при повторных измерениях. Общий алгоритм, реализованный в модуле Дисперсионный анализ , будет пытаться для каждого эффекта генерировать независимые (ортогональные) контрасты. Для фактора повторных измерений эти контрасты задают множество гипотез относительно разностей между уровнями рассматриваемого фактора. Однако если эти разности коррелированы внутри групп, то результирующие контрасты не являются больше независимыми. Например, в обучении, где обучающиеся измеряются три раза за один семестр, может случиться, что изменения между 1 и 2 измерением отрицательно коррелируют с изменением между 2 и 3 измерениями субъектов. Те, кто большую часть материала освоил между 1 и 2 измерениями, осваивают меньшую часть в течение того времени, которое прошло между 2 и 3 измерением. В действительности, для большинства случаев, где дисперсионный анализ используются при повторных измерениях, можно предположить, что изменения по уровням коррелированы по субъектам. Однако когда это случается, предположение о сложной симметрии и предположения о сферичности не выполняются и независимые контрасты не могут быть вычислены.

Влияние нарушений и способы их исправления. Когда предположения о сложной симметрии или о сферичности не выполняются, дисперсионный анализ может выдать ошибочные результаты. До того, как были достаточно разработаны многомерные процедуры, было предложено несколько предположений для компенсации нарушений этих предположений. (см., например, работы Greenhouse & Geisser, 1959 и Huynh & Feldt, 1970). Эти методы до сих пор широко используются (поэтому они представлены в модуле Дисперсионный анализ ).

Подход многомерного дисперсионного анализа к повторным измерениям. В целом проблемы сложной симметрии и сферичности относятся к тому факту, что множества контрастов, включенных в исследование эффектов факторов повторных измерений (с числом уровней большим, чем 2) не независимы друг от друга. Однако им не обязательно быть независимыми, если используется многомерный критерий для одновременной проверки статистического значимости двух или более контрастов фактора повторных измерений. Это является причиной того, что методы многомерного дисперсионного анализа стали чаще использоваться для проверки значимости факторов одномерных повторных измерений с более чем 2 уровнями. Этот подход широко распространен, так как он, в общем случае, не требует предположения о сложной симметрии и предположения о сферичности.

Случаи, в которых подходмногомерного дисперсионного анализа не может быть использован. Существуют примеры (планы), когда подход многомерного дисперсионного анализа не может быть применен. Обычно это случаи, когда имеется небольшое количество субъектов в плане и много уровней в факторе повторных измерений. Тогда для проведения многомерного анализа может быть слишком мало наблюдений. Например, если имеется 12 субъектов, p = 4 фактора повторных измерений, и каждый фактор имеет k = 3 уровней. Тогда взаимодействие 4-х факторов будет “расходовать”(k -1)P = 2 4 = 16 степеней свободы. Однако имеется лишь 12 субъектов, следовательно, в этом примере многомерный тест не может быть проведен. Модуль Дисперсионный анализ самостоятельно обнаружит эти наблюдения и вычислит только одномерные критерии.

Различия в одномерных и многомерных результатах. Если исследование включает большое количество повторных измерений, могут возникнуть случаи, когда одномерный подход дисперсионного анализа к повторным измерениям дает результаты, сильно отличающиеся от тех, которые были получены при многомерном подходе. Это означает, что разности между уровнями соответствующих повторных измерений коррелированы по субъектам. Иногда этот факт представляет некоторый самостоятельный интерес.

Многомерный дисперсионный анализ и структурное моделирование уравнений

В последние годы моделирование структурных уравнений стало популярным, как альтернатива многомерному анализу дисперсии (см. например, Bagozzi and Yi, 1989; Bagozzi, Yi, and Singh, 1991; Cole, Maxwell, Arvey, and Salas, 1993). Этот подход позволяет проверять гипотезы не только о средних в разных группах, но так же и о корреляционных матрицах зависимых переменных. Например, можно ослабить предположения об однородности дисперсии и ковариаций и явно включить в модель для каждой группы дисперсии и ковариации ошибки. Модуль STATISTICA Моделирование структурными уравнениями (SEPATH ) (см. том III) позволяет проводить такой анализ.

Несмотря на указанную тенденцию, при получении характеристик теста про­водятся повторные испытания и с дли­тельным временным промежутком. Иног­да они осуществляются в целях оценки валидности прогностической, элемен­тов валидности конструктной, связан­ных с дифференциацией по возрастному критерию и др. Определение же Н. р. главным образом ограничивается анали­зом краткосрочных случайных измене­ний, характеризующих тест как измери­тельную процедуру, а не его отношение к исследуемой области поведения.

Наряду с очевидной простотой Н. р. как метод определения надежности обла­дает существенными недостатками. Так, при повторном применении одних и тех же заданий, особенно при относительно непродолжительном временном интерва­ле между обследованиями, у испытуемых может сформироваться навык работы с данной психодиагностической методикой, что приводит к улучшению индивидуаль­ных результатов, хотя и не одинаково выраженному у разных лиц. Это неизбежно ведет к заметной перестановке ранговых мест отдельных испытуемых в данной вы­борке и, соответственно, ухудшению ко­эффициента надежности. Еще более за­метное воздействие на результаты анали­за надежности оказывает запоминание ис­пытуемыми отдельных решений, воспро­изведение в повторном обследовании пре­дыдущей картины правильных и непра­вильных решений. В этом случае резуль­таты двух предъявлений теста не будут независимыми и корреляция между ними окажется завышенной.

Один из путей устранения влияния тренировки на результаты оценки Н. р. - формирование устойчивого навыка в ра­боте с соответствующей методикой перед проведением тест-ретеста. Однако коли­чество повторений теста при этом неиз­бежно возрастает, что приводит к увели­чению числа запомнившихся решений. Такой прием может быть рекомендован для методик типа тестов скорости, со­держащих большое количество элементов тестового материала.

Для других методик, очевидно, един­ственным приемлемым путем снижения влияния тренировки остается увеличение интервала ретеста, что, однако, как уже говорилось выше, вступает в противоре­чие с определением надежности как ха­рактеристики теста.

Для большинства тестов общих спо­собностей характерно улучшение показа­телей Н. р. с возрастом испытуемых за счет лучшего контроля условий их выпол­нения. Другим фактором увеличения расчетных показателей Н. р. является отно­сительное замедление с возрастом темпа психического развития в области тех ха­рактеристик, которые могут стать объек­том измерения или влиять на результат теста. Благодаря этому, спустя время, со­ставляющее интервал ретеста, случайные колебания результатов обследования становятся менее выраженными. Это искус­ственно завышает показатели Н. р. Эта закономерность требует отдельных изме­рений Н. р. в разных возрастных контингентах испытуемых, что особенно суще­ственно для методик, предназначенных для обследования в широком возрастном диапазоне (см. Станфорд-Бине ум­ственного развития шкала, Векслера интеллекта измерения шкалы).



Указанные особенности и недостатки метода определения надежности путем ретеста делают его пригодным лишь для ограниченного числа методик, допускаю­щих многократное повторное обследова­ние. К их числу относятся сенсомоторные пробы, тесты скорости и ряд других мето­дик, отличающихся большим количеством пунктов (см. Миннесотский многоас­пектный личностный опросник).

НАДЕЖНОСТЬ ФАКТОРНО-ДИС­ПЕРСИОННАЯ - способ определения надежности, основанный на дисперси­онном анализе результатов теста. На­дежность теста соответствует отношению истинной дисперсии (т. е. дисперсии самого исследуемого фактора) к реально полученной эмпирической дисперсии. По­следняя складывается из истинной дис­персии и дисперсии погрешности изме­рения (см. Ошибка измерения). Фак­торно-аналитический подход к опреде­лению надежности дополнительно рас­членяет и дисперсию истинного показа­теля (Дж. Гилфорд, 1956).

Дисперсия истинного показателя, в свою очередь, может состоять из диспер­сии общего фактора для групп аналогич­ных тестов (см. Фактор G), особых фак­торов, обеспечивающих тесты специфи­ческой направленности (см. Факторы групповые) и дисперсии факторов, прису­щих конкретной тестовой методике. Сле­довательно, полная дисперсия теста рав­на сумме дисперсий для общих, специфических и единичных факторов плюс дис­персия погрешности:

где σ 2 t - дисперсия теста, - дис­персия общих, групповых и единичных факторов, - дисперсия погрешности. Разделив уравнение на σ 2 t получим:

что может быть записано в виде:

где - доля дисперсии, выраженная об­щим фактором а, и т. д.

Таким образом, коэффициент надеж­ности теста равен:

Факторно-дисперсионный способ оп­ределения надежности подходит для оцен­ки уже факторизованного теста (см. Фак­торно-аналитический принцип), но не для тестов, измеряющих широкий набор разнообразных параметров, так как неко­торые из них могут не входить в установленную область валидности методики.

НАДЕЖНОСТЬ ЧАСТЕЙ ТЕСТА - характеристика надежности психодиаг­ностической методики, получаемая путем анализа устойчивости результатов от­дельных совокупностей тестовых задач или единичных пунктов (заданий) теста.

Наиболее простым и распространен­ным способом определения Н. ч. т. явля­ется метод расщепления, суть которого заключается в выполнении испытуемым заданий двух равноценных частей теста. Обоснованием метода является вывод о том, что при нормальном или близком к нормальному распределении оценок по полному тесту (см. Нормальное распре­деление) выполнение любого случайного набора из частей теста даст аналогичное распределение (при условии, что части однородны по характеру заданий по отно­шению к тесту в целом).

Для оценки надежности методом рас­щепления выбирают две эквивалентные по характеру и степени трудности группы задач (см. Внутренняя согласован­ность, Трудность заданий теста). Раз­деление объема заданий теста на сопоста­вимые части достигается:

Распределением заданий на четные и нечетные (в том случае, если задания в тесте строго ранжированы по степе­ни субъективной трудности);

Распределением пунктов по принципу близости или равенства значений ин­дексов трудности и дискриминативности (см. Дискриминативность зада­ний теста). Такой принцип разделения пригоден для тестов достижений, в которых обязателен ответ испытуе­мых на все пункты;

Распределением задач по времени ре­шения каждой из частей (для тестов скорости).

Для испытуемых в выборке определе­ния надежности (раздельно для каждой из частей теста) вычисляются оценки успеш­ности решений, среднеквадратические от­клонения первого и второго рядов оценок и коэффициенты корреляции сравнивае­мых рядов. Естественно, эти коэффици­енты будут характеризовать надежность лишь половины теста.

Уравнение Спирмена-Брауна отра­жает влияние изменения количества зада­ний на коэффициент надежности теста:

где r t - коэффициент надежности для полного объема заданий, - его значе­ние после изменения числа заданий, п - отношение нового числа заданий к перво­начальному (если число заданий полного теста - 100, а его части, полученной ме­тодом расщепления на половины, - 50, то п = 0,5). Отсюда для полного теста:

Приведенные формулы справедливы для случаев равных стандартных отклоне­ний обеих половин теста (σ х1 = σ х2). Если σ х1 отличается от σ х2 , для определения ко­эффициента надежности применяется формула Фланагана:

Этот же показатель для малых выборок рассчитывается по формуле Кристофа:

При определении r t целого теста мож­но воспользоваться формулой Рюлона:

где - дисперсия разностей между ре­зультатами каждого испытуемого по двум половинам теста, - дисперсия сум­марных результатов. В данном случае ко­эффициент надежности рассчитывается как доля «истинной» дисперсии результа­тов теста (см. Надежность, Ошибка из­мерения).

При расщеплении тестов скорости применяется особая процедура группи­ровки заданий. Определяется минималь­ное время (t min) решения целого теста, за­тем отсчитываются половина и четвертая часть этого времени. Все испытуемые ра­ботают половину минимального времени, после чего ставят отметку против зада­ния, выполняемого в момент подачи сиг­нала, и продолжают работать еще чет­верть минимального времени. Коэффици­ент надежности в этом случае будет соответствовать степени корреляции между числом задач, решенных до первого сигна­ла (0,5t min) и решенных за время между первым и вторым сигналами (0,25t mjn ).

Разделение заданий теста на равно­ценные половины является лишь частным случаем Н. ч. т. Вполне возможно рас­щепление на три, четыре и более частей. В предельном случае число частей равно числу пунктов. При этом для определения надежности применяют анализ внутрен­ней согласованности.

При разделении всего набора заданий теста на любое количество групп для пра­вильного определения Н. ч. т., как уже указывалось выше, должно соблюдаться требование равноценности таких групп. Поэтому при вычислении коэффициента надежности методом анализа внутренней согласованности отобранные задания те­ста должны быть в высокой степени од­нородны по содержанию и трудности (го­могенны). При гетерогенных задачах значения r t ниже истинных.

Наиболее распространенным методом оценки надежности отдельных заданий является вычисление коэффициента Кью­дера-Ричардсона:

где - дисперсия первичных оценок те­ста, р - индекс трудности, выраженный в виде доли - - (см. Трудность заданий 100 теста), q = 1 - р, r pb - коэффициент дискриминации (см. Дискриминатив-ность заданий теста).

В целях упрощения вычисления мо­жет быть применена формула Гуликсена:

где k - число заданий в тесте.

Это уравнение может быть упрощено следующим образом:

При отсутствии коэффициента диск­риминации применим вариант формулы Кьюдера-Ричардсона:

Пример вычислений r t по методу Кью­дера - Ричардсона приведен в табл. 17.

Таблица 17

Определение коэффициента надежности методом Кьюдера-Ричардсона (n = 50; = 8,01;k = 16)

Предложенные выше формулы для оп­ределения коэффициента надежности при­годны для случаев, когда задания оцени­ваются в дихотомической шкале (см. Шка­лы измерительные) по принципу «выполнено - не выполнено». Для случаев с бо­лее дифференцированной оценкой приме­нима формула коэффициента альфа:

где - сумма дисперсий результатов отдельных заданий.

В практике психологической диагно­стики считается, что тест надежен, если r t ≥ 0,6.

Коэффициент надежности обладает доверительным интервалом, определение которого особенно важно в связи с боль­шим количеством факторов, способных влиять на его значение. Доверительный интервал для r t определяется как

где - стандартная ошибка коэффици­ента надежности - преобразование Фишера (определяется по статистическим таблицам). На практике применяется только нижняя граница r t (Z крит при γ = 0,05 составляет 1,96, при α = 0,01 -2,58).

Характеристика надежности по типу Н. ч. т. имеет серьезные преимущества по сравнению с надежностью ретестовой и надежностью параллельных, форм, главным образом благодаря отсутствию необходимости в повторном обследова­нии. Таким образом, снимается влияние многих посторонних факторов, в частно­сти тренировки, запоминания решений и т. д. Это обстоятельство определяет ши­рокое распространение методов характеристики Н. ч. т. по сравнению с другими типами надежности. К недостаткам мето­да относится невозможность проверить устойчивость результатов теста спустя определенное время. Это требует комби­нирования метода Н. ч. т. с другими типа­ми характеристики надежности психоло­гической методики.

«НАРИСУЙ ИСТОРИЮ» (Draw-a-Story, DAS) - проективная методика иссле­дования личности. Предложена Р. Силвером в 1987 г. Предназначена для раннего обнаружения депрессии, в частности - скрытой депрессии.

«Н. и.» основывается на обычных для проективных методик положениях: а) дет­ское восприятие одних и тех же рисунков различно; б) на восприятие оказывает влияние личный опыт; в) рисунки могут отражать элементы личности, поддающи­еся квантификации.

В методике комбинируются исследо­вательские процедуры разных проектив­ных техник. Первоначально обследуемый должен выбрать из 14 картин две и по ним придумать историю (на предлагаемых кар­тинах в основном содержатся изображе­ния людей и животных). Затем необходи­мо сделать рисунок по мотивам ранее во­ображенной истории. Наконец, предлага­ется записать историю. Темы рисунка и истории оцениваются по 7-балльной шка­ле (от «выражение негативная» до «выраженно позитивная»). Негативные темы содержат указания на «грусть», «печаль», «смерть», «беспомощность», «будущее без надежд на лучшее» и т. п. и рассматрива­ются как знаки депрессии.

«Н. и.» предназначена для группового обследования детей и подростков, начи­ная с 5-летнего возраста. Сообщается о высокой надежности методики. Так, на­дежность ретестовая (интервал ретеста - неделя) при обследовании детей с эмоциональными расстройствами - 0,87.

Данные о валидности ограниченны, тем не менее имеются сведения о том, что темы депрессивных детей и подростков оцениваются в основном как «выражение негативные», чего не наблюдается в других группах. Имеются нормативные дан­ные, полученные при обследовании 380 детей и подростков, однако они не могут быть признаны репрезентативными.

Сведений об использовании в СНГ нет.

«НАРИСУЙ ЧЕЛОВЕКА» ТЕСТ (Draw-A-Person Test, DAP) - проективная ме­тодика исследования личности. Разрабо­тана К. Маховер в 1948 г. на основе теста Ф. Гудинаф, предназначенного для опре­деления уровня интеллектуального разви­тия детей и подростков с помощью выпол­ненного ими рисунка мужчины (см. Гуди­наф «Нарисуй человека» тест).

«Н. ч.» т. можно использовать для об­следования как взрослых, так и детей, до­пускается групповое обследование.

Обследуемому предлагают каранда­шом на чистом листе бумаги нарисовать человека. После выполнения рисунка ему дают задание нарисовать человека проти­воположного пола. Заключительный этап обследования - опрос. К. Маховер со­ставлены специальные перечни вопросов о нарисованных фигурах. Эти вопросы ка­саются возраста, образования, семейного положения, привычек и т. д.

При интерпретации полученных дан­ных автор исходит из идеи о том, что ри­сунок является выражением «Я» обследу­емого. Значительное внимание уделяется анализу разнообразных деталей рисунка, прежде всего особенностям изображения основных частей тела, которые зачастую оценивают в соответствии с психоанали­тической символикой. Изучение валидно­сти «Н. ч.» т. западными психологами привело к противоречивым результатам в силу умозрительности предлагаемых ав­тором интерпретаций. Имеются данные о том, что общие субъективные оценки бо­лее валидны и надежны, нежели оценки по отдельным деталям рисунка.

В СССР «Н. ч.» т. первоначально при­менялся в клинико-психологических ис­следованиях. Анализировались преиму­щественно формальные аспекты рисун­ков, напр, размер фигуры, ее расположе­ние на листе бумаги, степень законченно­сти рисунка и т. п. (Ю. С. Савенко, 1970). Полученные при обследовании пациента результаты соотносились с клинической картиной заболевания, обогащая и уточ­няя представление о больном. Начиная с 90-х годов сфера использования теста су­щественно расширяется, выполнено не­мало исследований в возрастной и педаго­гической психологии.

НАРУШЕНИЙ ПСИХИЧЕСКОЙ АДАПТАЦИИ ОПРОСНИК (НПА) - опросник личностный, разработан А. И. Скорик и Л. С. Свердловым в 1993 г. Предназначен для предварительной диаг­ностики адаптационных нарушений.

Методика носит скрининговый харак­тер (см. Отсеивание). Исследование, проводимое при помощи НПА, позволяет получить общее представление о наличии или отсутствии проявлений психической дезадаптации, их основных особенностях. Требования,предъявляемые к такого рода ускоренной диагностике, обусловили не­большой объем опросника и простоту об­работки первичных данных.

Опросник НПА состоит из 37 утверж­дений, касающихся личностных качеств и психологических особенностей испытуе­мого, состояния соматической сферы, представлений о психическом здоровье, восприятия некоторых обыденных жизненных проблем. Задания опросника тре­буют только утвердительных или отрица­тельных ответов («да»-«нет», «верно»- «неверно», «согласен»-«не согласен»). Ответ «не знаю» не допускается. Опросник может применяться при индивидуаль­ном и групповом обследовании. Оценки первичные подсчитываются в соответ­ствии с «ключом», раздельно по 6 шкалам опросника. Особенностью первичной об­работки является то, что подсчитывается не просто число совпадений с ключом с оценкой 1 балл за каждое совпадение, а суммируются удельные веса каждого из совпавших с ключевым значением отве­тов (см. Внутренняя согласованность). Весовая величина каждого пункта рассчи­тывалась на основе определения фактор­ной нагрузки (см. Факторный анализ) данного ответа в измеряемом шкалой при­знаке. Расчет сделан таким образом, что веса пунктов выражаются целыми числа­ми от 1 до 9. Сырые оценки переводятся в стандартные Т-баллы (см. Оценки шкаль­ные). Результаты представляются графи­чески на специальном бланке в виде оце­нок профильных.

Шкалы опросника разработаны на ос­нове результатов факторного анализа первичного статистического материала, полученного в соответствующих клини­ческих группах испытуемых: 1. (В) Опи­сывает переживание общего физического и психического комфорта. В норме у адап­тированных испытуемых оценка по дан­ной шкале имеет тенденцию к повыше­нию. 2. (Н) Шкала «ипохондрии» - отра­жает степень фиксации на соматическом неблагополучии. При нарушениях адапта­ции оценка по данной шкале повышается. 3. (М) Шкала «гипоманиакальности» - фиксирует ощущение комфорта с оттен­ком эйфории, «форсированного благопо­лучия», беспечности. При нарушении адаптации оценка снижается. 4. (Р) Шка­ла описывает депрессивное состояние. Результат отрицательно коррелирует с данными по шкале М. В норме наблюда­ется низкая оценка. 5. (N) Шкала «невротизации» - описывает состояние эффек­тивно-вегетативного дисбаланса, возникающего при эмоциональном напряжении, «нервозность». При нарушениях адапта­ции оценка повышается. 6. (S) Шкала фиксирует нарушения в сфере соци­альных отношений. У дезадаптированных оценка повышается.

При интерпретации данных НПА ос­новное значение имеет анализ «профиля». Наряду с этим авторы предлагают про­стые формальные критерии диагностики дезадаптации. Простейшим из них являет­ся критерий, основанный на высоте про­филя. Дезадаптация имеет место в том случае, если оценки хотя бы двух шкал превышают значения 70 Т или опускают­ся ниже 30 Т либо одна из шкал превыша­ет 80 Т или опускается ниже 20 Т. По дан­ным авторов, вероятность необнаружения реально существующей дезадаптации со­ставляет лишь 5%. Однако вероятность того, что достаточно адаптированные лица будут причислены к дезадаптирован­ным, составляет 22,5%. Это делает дан­ный критерий малопригодным, в частно­сти при проведении массовых эпидемио­логических исследований. Более слож­ным и точным (10% вероятности того, что адаптированные будут причислены к дезадаптированным) является критерий, учи­тывающий дифференцированный резуль­тат по «шкалам благополучия» (В, М) и «шкалам неблагополучия» (Н, D, N, S). Дезадаптация диагностируется в тех слу­чаях, когда В + М составляют 79 Т или когда сумма Н, D, N и S превышает 255 Т. Сравнительные исследования на матери­але контрастных групп показали высо­кую корреляцию комплексного критерия дезадаптации с верифицированным диаг­нозом (r = 0,85, Р< 0,001).

Надежность ретестовая НПА (при интервале ретеста 1 сутки) по различным шкалам колеблется в интервале r t = 0,74-0,90. Имеются сведения о валидности текущей, которая изучалась путем сопоставления данных контрастных групп (группы психически здоровых адекватно адаптированных, психически здоровых с нарушениями адаптации и больных с неврозоподобными состояниями). Сведения о надежности и валидности опросника НПА дают основание предполагать эф­фективность методики в индивидуальном и массовом скрининге состояний психи­ческой дезадаптации.

НЕСУЩЕСТВУЮЩЕЕ ЖИВОТ­НОЕ - проективная методика иссле­дования личности; предложена М. 3. Друкаревич.

Испытуемому предлагают придумать и нарисовать несуществующее животное, а также дать ему ранее не существовавшее имя. Из имеющейся литературы видно, что процедура обследования не стандар­тизована (используются разных размеров листы бумаги для рисования, в одних слу­чаях рисунок выполняется цветными ка­рандашами, в других - одним цветом и т. д.). Общепринятой системы оценки ри­сунка не существует. Теоретические по­сылки, положенные в основу создания ме­тодики, совпадают с таковыми у прочих проективных методик. Как и многие дру­гие рисуночные тесты, Н. ж. направлен на диагностику личностных особенностей, иногда ее творческих потенций.

Показана удовлетворительная валидность конвергентная методики путем установления связи между результатами, полученными с ее помощью, и данными других личностных методик на материале обследования пациентов психиатричес­кой клиники и лиц, проходящих профот­бор в штат МВД (П. В.Яньшин, 1988, 1990). Валидность также подтверждена при дифференциации больных неврозами и здоровых (Т. И. Краско, 1995). Н. ж. - одна из наиболее популярных рисуночных методик и широко используется психоло­гами СНГ при обследовании детей и взрослых, больных и здоровых чаще всего в качестве ориентирующей методики, т. е. такой, данные которой позволяют выдвинуть некоторые гипотезы об особен­ностях личности.

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ - вид распределения переменных. Н. р. наблюдается при изменении призна­ка (переменной) под влиянием множества относительно независимых факторов. График уравнения Н. р. представляет со­бой симметричную унимодальную колоколообразную кривую, осью симметрии ко­торой является вертикаль (ордината), проведенная через точку 0 (рис. 46).

Рис. 46. Процентное распределение случаев под нормальной кривой

Кривая Н. р. была построена для про­стого аппроксимативного решения задачи вероятности частот событий. Нормальная кривая описывается формулой де Муавра

U - высота кривой над каждым за­данным значением x i , - среднее арифметическое x i , - среднеквадратическое отклонение от .

Теоретически существует бесконечное множество нормальных кривых с кон-летными значениями М и σ. При стандартизации тестовых оценок и в некоторых других случаях используется Н. р. со следующими характеристиками: М = 0; σ= 1; площадь под нормальной кривой равна единице. Такое распределе­ние носит название стандартного (единич­ного) Н. р. Для любого Н. р. в пределах значений х 1 . М + σ лежит около 68%, в пределах М ± 2σ - 95%, М ± 3σ - 99,7% площади под кривой. Частоты слу­чаев, укладывающихся в интервалы, огра­ниченные значениями от М ± σ до М ± σ, составляют 68,26%; 95,44%; 99,72%; 99,98 % соответственно (рис. 46). Высо­та кривой (U) над значением М приблизи­тельно равна 0,3989. Асимметрия стан­дартной, как и любой другой нормальной, кривой равна нулю, эксцесс (Q) - трем (см. Оценка типа распределения). Рас­пределение показателей, получаемых в эмпирических психологических и психо­диагностических исследованиях при боль­шом числе наблюдений, как правило, при­ближается к Н. р.

На практике важную роль имеет вы­числение площади слева от любой точки на оси абсцисс, ограниченной участком нормальной кривой и ординатой этой точки. Так как площадь стандартного Н. р. равна единице, то доля этой площа­ди отражает частоту случаев с х i , мень­шими, чем данное значение на оси X. Ре­шение уравнения де Муавра для любого значения х неудобно, поэтому для опре­деления площади слева от данного зна­чения в различных Н. р. (по оси z ) име­ются специальные таблицы (см. табл. 1 Приложения III).

Важнейшим качеством Н. р. является то, что для семейства нормальных кривых характерны одинаковые доли площадей, лежащих под участками, ограниченными равными значениями σ. При этом любую нормальную кривую можно свести к еди­ничной и таким образом ответить на во­прос о площади между выбранными точками на кривой или высоте кривой над любой из точек оси X. Форма нормальной кривой не изменяется при вычитании среднего значения и делении на σ. Так, если нужно выяснить, какая часть площади лежит слева от значения х = 20 в Н. р. с = 25 и = 5, эту задачу можно заменить вы­яснением площади, лежащей слева от в единичном Н. р. Для стандартного Н. р. значение х указывает, что точка отстоит от среднего на х единиц. Отклонение значения от среднего х - , а число стандартных отклонений, которое отделяет х от , составляет - единичное нормальное отклонение (z). Рассмотренная выше закономерность обобщается правилом: если х имеет нор­мальное распределение со средним и стандартным отклонением , то - характеризуется нормальным распределением со средним 0 и стандарт­ным отклонением 1. Площадь между x l и в Н. р. со средней и стандартным от­клонением равна площади между и в единичном Н. р.

12. Понятие валидности, надежности, достоверности в психодиагностике.

Надёжность – один из критериев проверки методик. В разработку этого критерия внесли свой вклад А. Анастази, Кронбах, Торндайк.

Надёжность – относительное постоянство, устойчивость, согласованность результатов тестов при первичном и повторном измерении на одних и тех же испытуемых. Необходимо повторное измерение на той же выборке. Расхождения возможны, но они должны быть незначительны. Таким образом, надёжность говорит о точности и устойчивости результатов к действию случайных факторов.

Общий разброс может быть результатом двух групп причин:

    Изменчивость, присущая самому признаку.

    Факторы внешней среды, которые могут повлиять

Процедуры вычисления надёжности:

    Проведение одной и той же формы теста. (ретестовая надёжность), вычисление коэффициента корреляции. Интервал между проведением тестирования – от одного до нескольких месяцев.

    Проведение параллельных форм тестов. При проведении исследования с помощью эквивалентной формы теста специалист убеждается в правильности выбранного признака. Чтобы формы теста считались эквивалентными необходимо одинаковое количество заданий в обоих тестах, задания должны быть унифицированы, задания должны располагаться одинаково по степени сложности, должны быть одинаковые средние и стандартное отклонение. Используют два подхода для вычисления надёжности при помощи параллельных форм тестов:

    Одни и те же испытуемые обследуются при помощи одного теста. А потом другого и если коэффициент корреляции больше 0.7, то надёжность высока.

    Испытуемые делятся на две группы, одна группа проходит тест А, другая тест Б, через неделю – наоборот.

    Расщепление теста и вычисление коэффициента корреляции. Испытуемые выполняют две части теста, которые равноценны. В одну часть попадают все чётные задания, в другую – нечётные. Эта процедура показывает последовательность теста внутри себя, меру адекватности подбора вопросов. Вычисляется коэффициент корреляции.

Коэффициент надёжности соответствует коэффициенту корреляции Спирмена или Писрона.

Надёжность факторно-дисперсионная - способ определения надежности, основанная дисперсионном анализе результатов теста. Надежность теста соответствует отношению истинной дисперсии (т. е. дисперсии самого исследуемого фактора) к реально полученной эмпирической дисперсии. Последняя складывается из истинной дисперсии и дисперсии погрешности измерения. Факторно-аналитический подход к определению надежности дополнительно расчленяет и дисперсию истинного показателя (Дж. Гилфорд, 1956).

Дисперсия истинного показателя, в свою очередь, может состоять из дисперсии общего фактора для групп аналогичных тестов, особых факторов, обеспечивающих тесты специфической направленности и дисперсии факторов, присущих конкретной тестовой методике. Следовательно, полная дисперсия теста равна сумме дисперсий для общих, специфических и единичных факторов плюс дисперсия погрешности

Факторно-дисперсионный способ определения надежности подходит для оценки уже факторизованного теста, но не для тестов, измеряющих широкий набор разнообразных параметров, так как некоторые из них могут не входить в установленную область валидности методики.

Достоверность и допустимая ошибка измерения:

Достоверность определяется критерием ошибки измерения. Ошибка – это статистический показатель, характеризующий степень точности отдельных измерений. Предполагается, что для любой черты каждый индивид имеет истинный показатель. Любой показатель, полученный в тесте отличается от его истинного значения на какую-то случайную погрешность. И если протестировать человека несколько раз, получится разброс показателя вокруг истинного значения. Это значение колеблется в определённых границах. Колебание данного значения может зависеть от систематических ошибок и случайных. Причинами систематических ошибок может быть неправильное проведение теста, не соблюдение процедуры, неточность в обработке, низкая валидность методики. Вероятны и случайные ошибки, связанные с человеческим фактором. Если в методике не заложены подобные сбои, то её нельзя считать точной. При большом количестве наблюдений индивидуальные оценки образуют определённый тип распределения статистического показателя, которые будут обнаруживать ошибки измерения. Ошибка измерения определяется статистическими методами – величиной квадратичного отклонения, связанной с дисперсией распределения отдельных измерений. Погрешность не должна превышать 5 %.

Валидность:

Валидность – способность теста измерить то, что он должен измерить по замыслу автора. Это понятие относится больше не к тесту, а к его цели. Тест может быть надёжным, но не валидным. Но если тест валиден, то он надёжен.

Источники идей валидности:

    Первые идеи появились ещё до создания тестов. Часто исследователи связывали результаты исследования с будущими успехами. Например, Пифагор, связывал мышление и речь при помощи интуиции.

    Идея о необходимости практической проверки пригодности теста. Вне практики проблема валидности не может существовать.

    Философские идеи: истина- соответствие мысли действительности. Критерий истинности – полезность.

    Измерения, которые мы делаем не очевдны, они требуют теоретической основы. Теоретико=эмпирическая валидность.

    Развитие статистической науки – корреляции и факторного анализа.

Пять источников породили пять видов валидности.

В начале 20 века ведущую роль играла интуиция. Если создателем теста был известный человек, то вера в валидность принималась на слово.

В 20-30 годы росли запросы практики, стали создаваться тесты на основе эмпирических источников. Было разработано 3 эмпирических подхода:

    Все поступающие на работу проходят тест. Через какое-то время измеряется их производительность труда и эффективность. Затем шло коррелирование показателей. Таким образом, тесты использовались для полезности.

    Сначала тестируются те, кто успешно уже работает, а затем результаты этого тестирования коррелируются с результатами кандидатов. Если есть взаимосвязь, то тест валидный.

    Работы Бине и Симона. Для уверенности, что тест измеряет именно интеллект. Все задания теста проводились на двух группах, которые отбирались не психологами, а учителями. В 1 группе были дети с высокими умственными способностями, во 2 – с невыраженными способностями.этот способ получил название «экспертного». Далее проводилось тестирование. И если в обеих группах большинство отвечало в соответствии с ожиданиями авторов, то тест признавался валидным.

Таким образом, эмпирические методы обоснования валидности просуществовали до 50ых годов. Стали считать, что доказывать валидность можно не только с помощью практики. Анализ и соответствие теории и практики. Валидность по содержанию, сравнение с программой исследования и содержания теста. Сравнение облегчается, когда в программе выделяется проблема, цель и основные понятия. Концептуальная валидность, так как психологи интересуются соотнесением научных понятий с эмпирически наблюдаемыми фактами.

В эмпирический методах доказательства валидностиособую роль играют внешние критерии, которые служат доказательством валидности. Американские психологи Тиффани и МакКормик провели анализ использования внешних критериев и выделили их 4 типа:

    Критерий исполнения – количество выполненной работы, темп роста мастерства

    Субъективный критерий – включение различных видов ответов, которые отражают отношение к чему-либо.

    Физиологический критерий - используется при изучении окружающей среды.

    Критерий случайности – учет многих факторов.

Внешние критерии должны отвечать требованиям релевантности, свободы от помех, надёжности. Релевантность – смысловое соответствие между тестом и независимым от него жизненноважным критерием. Свобода от помех (контаминация) считается важной так как на деятельность влияет сам человек и условия его труда. Надёжность – постоянство результатов

Диагностическая (конкурентная) В . отражает способность теста дифференцировать испытуемых по изучаемому признаку. Анализ диагностической В. имеет отношение к установлению соответствия показателей теста реальному состоянию психологических особенностей испытуемого в момент обследования. Примером определения этого типа В. может быть исследование по методу контрастных групп. Проведение теста интеллекта у нормально развивающихся детей и их сверстников с нарушениями в интеллектуальном развитии может выявить глубокие количественные и качественные различия в выполнении заданий сравниваемыми группами. Степень надежности дифференциации детей первой и второй групп по данным теста будет характеристикой диагностической В. оценки умственного развития, получаемой с помощью данной методики.

Валидность содержательная (внутренняя, логическая) - комплекс сведений о репрезентативности заданий теста по отношению к измеряемым свойствам и особенностям. Одним из основных требований при валидизации методики в этом направлении является отражение в содержании теста ключевых сторон изучаемого психологического феномена. Если область поведения или особенность очень сложна, то содержательная В. требует представления в заданиях теста всех важнейших составных элементов исследуемого явления.

Дифференциальная В . - валидность, рассматривающая внутренние взаимоотношения между психологическими факторами, диагностируемыми с помощью психодиагностической методики. Содержание Д.В. может быть иллюстрировано на примере тестов интересов, которые в своем большинстве обычно умеренно коррелируют с показателями общей академической успеваемости, однако в различной степени связаны с успеваемостью по отдельным дисциплинам. В. д. особенно важна как показатель диагностической ценности методик, используемых в профотборе.

Иллюзорная В. (ложная) - иллюзия соответствия заключения по результатам тестирования личностным характеристикам обследуемого. Возникает как следствие использования предельно общих, а поэтому применимых практически ко всем обследуемым формулировок, таких, например, как «разумный в выборе цели», «стремящийся к лучшей жизни» и т. п. Такого рода утверждения принимаются почти всеми людьми в качестве точного описания их личности, что создает почву для деятельности различного рода прорицателей и предсказателей.

Инкрементная В . - (англ. incremental - приращение, прибыль) - один из компонентов критериальной валидности, прогностической валидности теста, отражающий практическую ценность методики при проведении отбора. В. и. может быть выражена количественно при помощи валидности коэффициента.

Консесусная В . (consensual validity) - тип валидности, основывающейся на установлении связи (корреляции) тестовых данных с данными, полученными от внешних экспертов, хорошо знакомых с теми лицами, которые были подвергнуты тестированию. Понятие и процедура В. к. введены Р. Мак-Краэ в 1982 г. с целью обеспечения валидизации опросников личностных, которая нередко затруднена (а иногда и невозможна) в связи с отсутствием необходимых для установления валидности критериев.

Конструктная В.-один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вербальный интеллект, эмоциональная неустойчивость, интроверсия, понимание речи, переключаемость внимания и т. д. Иначе говоря, В. к. определяет область теоретической структуры психологических явлений, измеряемых тестом.

Следует, однако, заметить, что, в отличие от критериальной валидизации, при анализе В. к. не требуется высокой степени связи результатов двух тестов. Если окажется, что новый и эталонный тесты практически идентичны по содержанию и результатам и разрабатываемая методика не обладает преимуществами краткости или легкости применения, это означает лишь дублирование теста, оправданное только с т. з. создания параллельной формы теста. Смысл процедуры В. к. состоит в установлении одновременно как сходства, так и различия психологических феноменов, измеряемых новым тестом по сравнению с известным.

Важным аспектом В. к. является внутренняя согласованность, отражающая то, насколько определенные пункты (задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одних и тех же конструктов. Анализ внутренней согласованности осуществляется путем коррелирования ответов на каждое задание с общим результатом теста. При определении В. к. важное место принадлежит изучению динамики измеряемого конструкта. При этом мы можем опираться на гипотезы о его возрастном развитии, влиянии тренировок, обучения, освоения профессии и т. д.

Критериальная В. - комплекс характеристик, включающий валидность текущую и прогностическую методики и отражающий соответствие диагноза и прогноза определенному кругу критериев измеряемого явления. В качестве валидизации критерия выступают независимые от результатов теста и непосредственные меры исследуемого качества, такие как уровень достижений в какой-либо деятельности, степень развития способности, выраженность определенного свойства личности и т. д. При валидизации тестов достижений результат измерений сравнивается с мнением педагогов о знаниях обследуемого в определенной области, с академическими оценками, контрольными проверками и т. д. В случае валидизации профориентационных тестов и методик тестовые оценки сравниваются как с экспертными оценками коллег и руководителей, так и с объективными показателями достижений в профессиональной сфере.

Очевидная В. - пред ставление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики. В. о. не является компонентом объективно устанавливаемой валидности. Вместе с тем высокая В. о. в большинстве случаев является весьма желательной. Она выступает в качестве фактора, побуждающего испытуемых к обследованию, способствует более серьезному и ответственному отношению к работе по выполнению заданий теста и к заключениям, формулируемым психологом.

Достаточный уровень В. о. особенно значим для методик обследования взрослых. Представления испытуемых и пользователей психодиагностической информацией о В. о. в немалой степени определяются названием методики, поскольку эта часть сведений о тесте наиболее доступна неспециалистам. В. о. существенно улучшает применение понятных формулировок и терминов, а также заданий, по содержанию являющихся наиболее естественными с учетом возрастной, половой, профессиональной специфики испытуемых. Неадекватно завышенная В. о. способствует более выраженному проявлению эффекта контаминации критерия.

В. о. иногда носит название внешней (face validity), или «доверительной» (faith validity), валидности.

В. по возрастной дифференциации - один из компонентов валидности конструктной, связанный с возрастной динамикой изменений исследуемого качества. Характеристика валидности по конструкту здесь заключается в определении соответствия результатов теста теоретически ожидаемым и практически наблюдаемым возрастным изменениям данного конструкта или свойства.

Прогностическая В. - информация о том, с какой степенью точности и обоснованности методика {тест) позволяет судить о диагностируемом психологическом качестве спустя определенное время после измерения. В. п. отражает временной интервал, на который распространяется обоснование такого суждения. Сведения о В. п. имеют самое непосредственное отношение к раскрытию предсказательной силы методики, выяснению степени обоснованности сформулированного на ее основе ближайшего и более отдаленного прогноза, анализу значимости получаемых в тесте показателей с т. з. экстраполирования результатов на будущее.

В качестве валидизации критерия могут выступать не только показатели актуального поведения, но и ожидаемые результаты деятельности, лечения, обучения и т. д. Процедура определения В. "п. опирается на анализ корреляции между оценками по тесту и предсказанными результатами деятельности, формирующимися свойствами личности, исходом лечения и т. п. Вместе с тем различие двух видов критериальной валидности связано не только с временными пределами критериальных сопоставлений. Валидность текущая и В. п. отражают разные цели применения методики: текущий диагноз, оценка настоящего положения, с одной стороны, и прогнозирование развития качества или успеха в деятельности - с другой.

Важность показателей В. п. при анализе тестовых процедур, направленных на отбор, подчеркивается введением специального понятия валидности инкрементной. Этот показатель В. п. дает информацию о том, насколько улучшается процедура отбора с применением данного теста по сравнению с традиционной (основывающейся лишь на формальных сведениях о предыдущей деятельности, анализе документов личного дела, беседах).

Комплекс сведений В. с. традиционно имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающую с реальной (чаще всего учебной или профессиональной). Изучаемая деятельность носит, как правило, синтетический характер, складывается из многих, подчас разнородных факторов (проявления личностных особенностей, комплекс необходимых знаний и навыков, специфические способности и т. д.). Поэтому одной из важнейших задач создания адекватной модели тестируемой деятельности является подбор таких заданий, которые будут охватывать главные аспекты изучаемого феномена в правильной пропорции к реальной деятельности в целом.

Текущая В. (диагностическая, конкурентная)- характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике. В качестве таких признаков могут выступать уровни общих способностей, притязаний, вербальный интеллект, тревожность и т. д. В более узком значении В. т. - установление соответствия результатов валидизируемого теста независимому критерию, отражающему состояние исследуемого тестом качества в момент проведения исследования.

Своеобразным показателем В. т. является комплекс сведений о том, насколько удобен, экономичен тест по сравнению с получением информации об исследуемом качестве из других источников (наблюдение, анализ объективных данных, экспертная оценка и т. д.).

Экологическая В. - валидность теста по отношению к измеряемому свойству в контексте определенной ситуации. В. э. является свойством теста, проявляющимся в том, что его применение при решении различных практических задач ведет к качественно различной интерпретации результатов тестирования (В. Н. Дружинин, 1990).

Эмпирическая В .-совокупность характеристик валидности теста, полученных сравнительным статистическим способом оценивания. Имеет отношение главным образом к области валидности критериальной и двум ее видам: валидности текущей и валидности прогностической. Если при определении валидности содержательной оценка теста проводится с помощью различных качественных процедур получения информации описательными методами с использованием экспертных оценок и других источников информации (для вынесения суждения о соответствии заданий теста содержанию предмета измерения), то В. э. измеряется всегда с помощью статистического коррелирования. Проводится корреляционный анализ связи двух рядов значений - оценок теста и показателей по внешнему параметру изучаемого свойства (или результатов другого теста, валидность которого известна).

Множественные сравнения.

Довольно часто возникает задача сравнения не двух групп (выборок), а нескольких – так называемая задача множественных сравнений . Например, различных возрастных, профессиональных, социальных слоев населения, или влияния различных доз препарата, методов диагностики и т.д.

При исследовании нового лекарственного препарата нас может интересовать не только вопрос о достоверности влияния препарата на величину некоторого параметра Х (например, систолического давления или уровня холестерина), но и значимо ли воздействие различных доз препарата. То есть нам надо изучить влияние фактора Дозы(F 1), а выборки (группы) составленные из значений параметра Х для различных доз называются – уровни фактора дозы . Так же нас может интересовать фактор Времени (F 2) , когда применяют препарат (утро, день вечер или более мелкая градация – это уровни фактора Времени ) и влияние фактора Возраста пациента (F 3) и т.д.

В этом случае рекомендуется на начальном этапе провести факторный дисперсионный анализ , который позволяет ответить на вопрос, значимо ли хотя бы одно отличие между сравниваемыми группами. Нулевая гипотеза о равенстве всех средних (медиан) проверяется по параметрическому критерию Фишера или непараметрическому аналогу – критерию Краскела-Уолиса.

Казалось бы зачем нужен дисперсионный анализ если существует такой прекрасный и понятный статистический критерий, как т -критерий Стьюдента?

Главное ограничение т -критерия перед дисперсионным анализом состоит в том, что первый предназначен для парных сравнений , то есть ситуации, когда у нас есть только две выборки и он нуждается в поправках на множественные сравнения , в случае, если у нас более двух групп (выборок). Во-вторых, представим, если у нас 6 групп и мы ищем статистически значимые различия между ними, сколько попарных сравнений в таком случае нужно сделать?

Проблема множественных сравнений.

Если на одном и том же наборе данных выполняется многократная проверка гипотез, то при проверке каждой статистической гипотезы закладывается возможность ошибки первого рода (т.е. отклонение верной нулевой гипотезы). Чем больше гипотез мы проверяем на одних и тех же данных, тем больше будет вероятность допустить как минимум одну такую ошибку. Это явление называют эффектом множественных сравнений (multiple testing ) ...

Пусть имеем три выборки А, В и С. Сравнение по критерию Стьюдента, Уровень значимости – a=0,05.

При сравнении групп A и В риск ошибиться с вероятностью 5%.(α=0,05) Точно такая же вероятность ошибки будет иметь место и при сравнении В с С и А с С. Соответственно, вероятность ошибиться хотя бы в одном из этих трех сравнений составит:

Это гораздо выше 0,05.

Очевидно, что дальнейшее увеличение числа проверяемых гипотез будет неизбежно сопровождаться и возрастанием в каждом отдельном тесте ошибки 2 рода (снижение мощности критерия).

В таком случае необходимо использоваться критерий, который предназначен для ситуаций, когда сравнивается большое число групп и который нам даст единый ответ на все изучаемые группы - дисперсионный анализ.

Дисперсионный анализ.

В зарубежной литературе дисперсионный анализ часто обозначается как ANOVA , что переводится как анализ вариативности (Analysis of Variance).

Дисперсионный анализ был разработан английским математиком – статистиком Р. Фишером в 1918 г. для обработки результатов агрономических опытов по выявлению условий получения максимального урожая различных сортов сельскохозяйственных культур.

Дисперсионный анализ это статистический метод, предназначенный для оценки влияния различных факторов на результат эксперимента, а также для последующего планирования аналогичных экспериментов. То есть в результате проведения эксперимента мы получаем несколько выборок для каждого фактора (уровни фактора), которые мы и должны сравнивать.

Условия применения дисперсионного анализа ANOVA

Перед тем как приступить к применению дисперсионного анализа, который предназначен для минимизации риска неправильной оценки ошибки 1 рода в случае множественных сравнений необходимо убедиться в соблюдении ряда условий:

1. Непрерывный тип данных, дискретные данные менее желательны.

2. Независимые между собой выборки.

3. Нормальное распределение признака в статистических совокупностях, из которых извлечены выборки. (Дисперсионный анализ – это параметрический критерий)

4. Равенство дисперсий изучаемого признака в статистических совокупностях, из которых извлечены выборки.

5. Независимые наблюдения в каждой из выборок.

Если данные не подчиняются нормальному распределению , то при анализе можно использовать два способа: применением различных арифметических преобразований до достижения нормальности распределения и дальше уже применять дисперсионный анализ, или использовать критерий Краскела-Уоллиса (Kruskal-Wallis H-test) , иногда его также называют непараметрическим дисперсионным анализом.

Метод дисперсионного анализа базируется на предположении о том, что если на объект (группу испытуемых) влияет несколько независимых факторов и их влияние складывается, то общую дисперсию значений признака, характеризующую объект (группу испытуемых) можно разложить на сумму дисперсий , возникающих в результате воздействия каждого отдельного фактора , а также обусловленных случайными влияниями (остаточная дисперсия). Сравнение дисперсий обусловленных влиянием различных факторов со случайной (остаточной) дисперсией позволяет оценить значимость вклада каждого из факторов, то есть оценить достоверность этих влияний.

Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей. А именно: если дисперсии этих совокупностей одинаковы (по предположению) и если математические ожидания одинаковы то можно считать, что совокупности однородны. Однородные совокупности можно объединить в одну и тем самым упростить исследования и получить более полную информацию, более надёжные выводы.

С помощью дисперсионного анализа исследователи из детской больницы в городе Питсбурге (США) получили первые доказательства того, что при ОРВИ повышается уровень гистамина, что проявляется в моче на 2-5 сутки вирусной инфекции, вызванной вирусом А. (Гистамин – основной эндогенный (внутренний) медиатор (фактор)аллергических реакций).

По числу факторов влияние которых исследуется, различают однофакторный и многофакторный дисперсионный анализ.